题库试卷

【国开搜题】国家开放大学一网一平台24春大数据分析与挖掘技术试卷包05期末考试押题试卷与答案

来源：百年教育职业培训中心　更新时间：2024-04-22 00:28:43

23春大数据分析与挖掘技术试卷包-05关注公众号【国开搜题】，回复【试题】获取试题答案一、单选题1.在Python基本库中，最常见也是最主要的数据结构类型是（）。A.表格B.文字C.数组D.序列答案：

23春大数据分析与挖掘技术试卷包-05

关注公众号【国开搜题】，回复【试题】获取试题答案

一、单选题

1. 在Python基本库中，最常见也是最主要的数据结构类型是（）。

A. 表格

B. 文字

C. 数组

D. 序列

答案：D
- 关注公众号【国开搜题】，对话框内发送试题，获得答案。

2. 下列关于Python中的注释说法正确的是（）。

A. Python中可以使用“#”作为注释，“#”右边的一切内容均不会被执行

B. Python中可以使用“#”进行一行或多行注释

C. Python中注释下的一切内容会被执行但不显示

D. Python中只有使用“#”这一种注释方法

答案：A
- 关注公众号【国开搜题】，对话框内发送试题，获得答案。

3. 删除缺失值的函数dropna()，默认是删除行，如果要对列进行删除，则需要添加参数（）。

A. axis=null

B. axis=-1

C. axis=0国开一网一平台渝粤教育

D. axis=1

答案：D
- 关注公众号【国开搜题】，对话框内发送试题，获得答案。

4. 下列关于主成分分析的说法错误的是（）。

A. 主成分分析一种经典的减少分析变量的方法

B. 它将数据从原始的低维空间投影到高维空间

C. 它将数据从原始的高维空间投影到低维空间

D. 所有原始变量可通过变换的方式得到综合变量，称为主成分

答案：B
- 关注公众号【国开搜题】，对话框内发送试题，获得答案。

5. 请问下面的哪个模型是移动平均模型（）

A. Xt=0.8Xt-1+at-1-0.8at-2

B. Xt=0.8Xt-1+at

C. Xt=at-1-0.8at-2

D. Xt=Xt-1+at-1.2at-1-0.5at-2

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

6. 事物或现象在一年内随着季节更换而形成的有规律变动，称为( B )

A. 长期趋势

B. 季节变动

C. 循环波动

D. 不规则变动

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

7. 下列关于AUC的说法不正确的是（）。渝粤搜题

A. AUC被定义为ROC曲线下的面积，也就是ROC曲线的积分

B. 通常取值在0.5~1

C. 随机挑选一个正样本以及一个负样本，分类器判定正样本的值高于负样本的概率就是AUC值

D. AUC值（面积）越小的分类器，性能越好

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

8. 下列属于聚类模型评价的内部指标的是（）。

A. DB指数

B. Jaccard系数

C. FM指数

D. Rand指数

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

9. 在回归学习中常用的损失函数是（）。

A. 0-1损失函数

B. 平方损失函数

C. 指数损失函数

D. 负二项损失函数

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

10. 下列关于决定系数的说法不正确的是（）。

A. 越接近于0说明模型拟合得越好

B. 决定系数是指模型解释了的数据波动的比例

C. 取值区间为[0,1]

D. 越接近于1说明模型拟合得越好

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

11. 当不知道哪些花是同一品种，哪些花不同品种时，考虑按照花瓣长宽与花萼长宽将不同品种的花分类。通常采用（）。

A. 聚类分析

B. 分类

C. 回归分析

D. 关联分析

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

12. 按照经济发展、教育水平、面积大小、人口等诸多方面对我国地市级以上城市进行分类。通常采用（）。

A. 回归分析

B. 分类

C. 关联分析

D. 聚类分析

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

13. 定性因素对因变量的影响在进行回归分析的过程中，需要进行特殊的处理是（）。

A. 把定性变量取对数再做分析

B. 把定性变量转化为虚拟变量之后再引入回归模型中进行分析

C. 把定性变量去掉

D. 无需做任何处理

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

14. 假定隐变量的随机误差项服从标准正态分布的模型是（）。

A. 线性概率模型

B. 二元Probit模型

C. 二元Logit模型

D. 计数模型

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

15. 在多重选择模型中，对于无序选择模型，一般假定随机误差项是独立同分布的随机变量，且假定服从（）。

A. 卡方分布

B. 均匀分布

C. 标准正态分布

D. 韦布尔分布

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

16. 下列关于关联规则的说法不正确的是（）。

A. 关联规则的强度可以用支持度和置信度度量

B. 支持度确定规则可以用于给定数据集的频繁程度渝粤题库

C. 置信度确定Y在包含X的事务中出现的频繁程度

D. 支持度确定Y在包含X的事务中出现的频繁程度

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

17. 下列关于相关关系的说法不正确的是（）。

A. 相关关系主要体现为变量之间的相互依存关系

B. 主要考察变量之间的相互影响，这种影响不存在方向性

C. 相关关系是确定性的

D. 相关关系是不确定的

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

18. 下列关于相关系数r的说法不正确的是（）。

A. r具有对称性

B. r的数值的大小与x和y的计量尺度无关

C. r能够反映两个变量之间的因果关系

D. r≥0时，表明两个变量之间存在正线性相关关系

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

19. 关于混淆矩阵，如果一个点属于正类并且被预测到正类中，称为：（）

A. 真正类；

B. 假正类；

C. 真负类；渝粤教育

D. 假负类。

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

20. 样品和哪个总体距离最近，就判它属于哪个总体的分类方法是：（）

A. 支持向量机

B. 决策树

C. 最近邻分类

D. 线性判别

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

二、多选题

1. AR（p）模型的基本假设有（）。

A. 假设Xt仅与Xt-1, Xt-2,……,Xt-p有线性关系；

B. 在Xt-1, Xt-2,……,Xt-p已知的条件下，Xt与Xt-p-1,Xt-p-2……线性相关

C. 随机误差项是一个白噪声；

D. 在Xt-1, Xt-2,……,Xt-p已知的条件下，Xt与Xt-p-1,Xt-p-2……无关；

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

2. 常用的核函数有（）。

A. 线性核国开搜题

B. 高斯核

C. 神经网络核

D. 多项式核

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

3. 下列关于KNN算法说法正确的是（）。

A. 随着k值的增加，模型的复杂度增大

B. 在实际应用中，一般采用交叉验证的方法来估计预测误差，找出使得估计的预测误差最小的k。

C. 最近邻分类每个样本都可以用它最接近的k个邻居来代表

D. 近邻选得少，模型则比较稳健。

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

4. 期望预测误差主要包括（）。渝粤教育

A. 模型假设失误带来的误差

B. 采用某种方法估计最优值时，估计值的平均可能偏离了真实值

C. 估计值自身由于数据的随机性产生一个波动部分

D. 一些主观人为因素国开一网一平台

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

5. 下列关于聚类模型评价的外部指标说法错误的是（）。

A. Dunn指数越小，说明类与类之间分得越开

B. Dunn指数越大，说明类与类之间分得越开

C. DB指数刻画的是一个平均距离，该指数越小，说明聚类越好

D. DB指数刻画的是一个平均距离，该指数越大，说明聚类越好

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

6. 下列关于函数duplicated()的说法正确的是（）。

A. 函数结果会返回数据中的所有重复值

B. 函数结果会返回一个布尔数组

C. 函数结果表明每一行是否与前面行有重复

D. 函数结果会返回数据中的所有非重复值

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

7. 下列关于线性概率模型，说法正确的是（）

A. 解释变量的合理变化会导致预测概率溢出[0,1]区间；

B. 使用加权最小二乘法修正异方差性可以保证概率预测值在[0,1]区间。

C. 当样本量充分大时，普通最小二乘法参数估计量的结果近似服从正态分布，可以克服随机误差项分布未知的缺陷。

D. 模型误差具有异方差性，但异方差性不影响参数估计。

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

8. 按相关因素（变量）的多少，可以将相关关系分为（）。

A. 单相关

B. 复相关

C. 线性相关

D. 非线性相关

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

9. DBSCAN算法中的直接密度可达、密度可达与密度相连理解正确的是（）

A. 只有核心对象之间相互密度可达

B. 密度相连是对称关系

C. DBSCAN目的是找到密度相连对象的最大集合

D. 密度可达也是对称关系

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

10. 下列操作属于数据分析和挖掘的一般流程的是（）。

A. 数据预处理

B. 探索性分析

C. 从平台或渠道获取数据

D. 将模型结果进行可视化

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

三、判断题

1. 如果时间序列的一阶矩、二阶矩存在，而且对任意时刻t满足均值为常数，协方差为时间间隔的函数，则称该序列为严平稳时间序列。

A. √

B. ×

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

2. 经典统计中强调的推断在数据挖掘中依然存在。

A. √

B. ×

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

3. 关联规则是指形如X→Y的蕴含表达式，其中X和Y是不相交的项集。

A. √

B. ×

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

4. 如果在存在非线性关系的情况下使用线性回归拟合曲线也是可以的，不会影响结论。

A. √

B. ×

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

5. 随机挑选一个正样本以及一个负样本，分类器判定正样本的值高于负样本的概率就是AUC值。

A. √

B. ×

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

6. 通过样本估计期望预测误差一般有重复抽样和交叉验证两种方式。

A. √

B. ×

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。渝粤搜题

7. 聚类分析中，类平均法充分利用各个样本的信息。渝粤教育

A. √

B. ×

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

8. 一些数据集是由合并数据源形成的，这就使其有可能含有重复数据或者近似重复的个体。

A. √渝粤题库，我们的目标是要做全覆盖、全正确的答案搜索服务。

B. ×

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

9. 先验概率与后验概率一定不相同。

A. √

B. ×

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

10. 判别规则所依据的最简单的原则是，新样本离哪一个类别中心的距离最近，那么它就属于哪一类。渝粤教育

A. √

B. ×

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

四、配伍题国开一网一平台

1. 请为名词选择①-⑥表示其含义的描述，将配好的A-F填写到括号中。

A. ①最小距离法 ->

B. Dkn=NpDkp+NqDkqNn国开搜题

C. ②最长距离法 ->

D. Dkn=Dkp+Dkq2-Dpq4

E. Dkn=NpDkp+NqDkqNn-NpNqDpqNn2

F. ③中间距离法 ->

G. Dkn=MaxDkpDkq国开搜题

H. ④重心法 ->

I. Dkn=Nk+NpDkp+Nk+NqDkq-NkDpqNk+Nn

J. ⑤类平均法 ->

K. ⑥离差平方和法 ->

L. Dkn=MinDkpDkq

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

关注公众号【国开搜题】，回复【试题】获取试题答案

【国开搜题】国家开放大学 一网一平台24春大数据分析与挖掘技术试卷包05期末考试押题试卷与答案

来源：百年教育职业培训中心 更新时间：2024-04-22 00:28:43

【国开搜题】国家开放大学一网一平台24春大数据分析与挖掘技术试卷包05期末考试押题试卷与答案

来源：百年教育职业培训中心　更新时间：2024-04-22 00:28:43