题库试卷

【国开搜题】国家开放大学一网一平台24春大数据分析与挖掘技术试卷包01期末考试押题试卷与答案

来源：百年教育职业培训中心　更新时间：2024-04-22 00:27:43

23春大数据分析与挖掘技术试卷包-01关注公众号【国开搜题】，回复【试题】获取试题答案一、单选题1.下列关于Python的说法错误的是（）。A.Python是一种面向对象的解释型高级编程语言B.可移植

23春大数据分析与挖掘技术试卷包-01

关注公众号【国开搜题】，回复【试题】获取试题答案

一、单选题

1. 下列关于Python的说法错误的是（）。

A. Python是一种面向对象的解释型高级编程语言

B. 可移植性和可扩展性不强

C. 结构简单，语法和代码定义清晰明确

D. 易于学习和维护

答案：B
- 关注公众号【国开搜题】，对话框内发送试题，获得答案。

2. 如需在Python中安装第三方工具库或包(packages)，可以在终端使用的命令是（）。

A. install (package的名称)

B. install pip (package的名称)

C. pip install (package的名称)国开一网一平台

D. pip (package的名称)

答案：C
- 关注公众号【国开搜题】，对话框内发送试题，获得答案。

3. 下列关于抽样的说法错误的是（）。

A. 抽样有多种方法，如有放回抽样、无放回抽样等

B. 无放回抽样则将抽出来的个体从抽样对象中去除

C. 有放回抽样有可能对同一个个体抽中了多次

D. 无放回抽样会有重复的个体

答案：D
- 关注公众号【国开搜题】，对话框内发送试题，获得答案。

4. 下列代码可以将数据data转换成数值型数据的是（）。

A. pd.to_numeric(data)

B. pd.to_num(data)

C. pd.to_number(data)国开一网一平台

D. pd.to_string(data)

答案：B
- 关注公众号【国开搜题】，对话框内发送试题，获得答案。

5. 平稳时间序列的自相关系数图p阶截尾, 偏自相关系数图拖尾,可以识别为（）

A. MA(p)

B. ARIMA(p,q)，q>0

C. AR(p)

D. ARMA(p,q)，q>0

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

6. 如图是某模型最小信息数值，根据结果可以选择最优模型是（）。

A. MA(1)

B. ARMA(1,1)

C. AR(1)渝粤教育

D. ARMA(0,1)

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

7. 下列关于性能评估的指标说法错误的是（）。

A. 对于预测任务的数据挖掘，性能评估的指标包括平均绝对误差和均方根误差等渝粤题库，我们的目标是要做全覆盖、全正确的答案搜索服务。

B. 对于分类任务的数据挖掘，评价指标一般可通过一个混淆矩阵计算得到国开搜题

C. 数据挖掘方法预测性能的评估是数据挖掘中的一个重要内容

D. ROC曲线不是常用的评价方法

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

8. 下列关于期望预测误差的说法错误的是（）。

A. 期望预测误差实际上是真实值与预测值在某种损失函数下的差值

B. 期望预测误差实际上是真实值与预测值在某种损失函数下的平均值

C. 通常我们使用期望预测误差作为寻优的目标函数

D. 有监督学习模型的目的是寻找一个可以很好地描述自变量X与因变量Y之间关系的函数f

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

9. 下列不属于回归模型评价指标的是（）。

A. 平均绝对误差

B. 平均相对误差

C. 平均平方误差

D. 决定系数

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

10. 下列属于聚类模型评价的内部指标的是（）。国开搜题

A. DB指数

B. Jaccard系数

C. FM指数

D. Rand指数

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。渝粤题库，我们的目标是要做全覆盖、全正确的答案搜索服务。

11. 下面哪个原则不是聚类过程中的类需要遵从的原则（）。

A. 同质性原则

B. 互斥性原则

C. 完备性原则

D. 充分性原则

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

12. 下列哪一项不属于聚类分析（）。

A. 系统聚类

B. 决策树

C. Kmeans

D. DBSCAN聚类

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

13. 当数据具有尖峰厚尾的分布特征或有离群点（即异常值）时，模型的稳健性（）。

A. 没有影响

B. 较好

C. 较差

D. 无法判断

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

14. 离散因变量具有两个选项或两种属性，离散因变量的属性往往是对立或互斥的模型是（）

A. 线性概率模型

B. 计数模型

C. 二元选择模型

D. 多重选择模型

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

15. 假定隐变量的随机误差项服从Logit分布的模型是（）。

A. 线性概率模型

B. 二元Probit模型

C. 二元Logit模型

D. 计数模型渝粤题库，我们的目标是要做全覆盖、全正确的答案搜索服务。

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

16. 下列关于相关系数r的说法不正确的是（）。

A. r具有对称性

B. r的数值的大小与x和y的计量尺度无关

C. r无法反映两个变量之间的因果关系

D. r≥0时，表明两个变量之间存在负线性相关关系

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

17. 若关联规则为{牛奶，尿布}→{啤酒}:{牛奶，尿布，啤酒}，项集的支持度计数为2，而事务总数为5，则该项集的支持度为（）。

A. 0.4

B. 10

C. 2渝粤搜题

D. 5

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

18. 变量或数据之间的两种主要关系的是（）。渝粤题库

A. 因果关系和相关关系

B. 因果关系和依存关系

C. 函数关系和相关关系

D. 函数关系和依存关系

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

19. 试想有如图的两类数据，“1”点表示一类数据，“0”点表示另一类数据，当k=1时，请问图中实心的圆点（从左到右）各自属于哪一类。（）

A. “1”；“1”

B. “1”；“0”渝粤题库，我们的目标是要做全覆盖、全正确的答案搜索服务。

C. “0”；“0”

D. “0”；“1”

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

20. （假定在某个节点）如果数据已经只有一类了，则该节点为叶节点，否则进行下一步。该算法是：（）

A. Hunt

B. ID3

C. CART

D. C4.5

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

二、多选题

1. 下面能够进行时间序列平稳性检验的是（）。

A. 自相关系数

B. 自相关图检验

C. 单位根检验

D. DW检验

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

2. 下列关于随机森林算法，说法正确的是（）。

A. 建立决策树的过程中，需要注意采样和完全分裂两点；

B. 建立决策树过程中需要两个随机采样，即行采样和列采样；

C. 对于行采样，采样无放回的方式；国开一网一平台

D. 采用完全分裂的方式构建决策树，这样决策树的某个叶节点要么无法继续分裂，要么里面的所有样本都指向同一个分类。

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

3. 下列不是判别分析的方法（）。

A. 距离判别国开一网一平台

B. 协方差阵判别

C. 聚类判别

D. 贝叶斯判别

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

4. 下列关于期望预测误差的说法正确的是（）。

A. 期望预测误差实际上是真实值与预测值在某种损失函数下的差值

B. 期望预测误差实际上是真实值与预测值在某种损失函数下的平均值

C. 通常我们使用期望预测误差作为寻优的目标函数

D. 有监督学习模型的目的是寻找一个可以很好地描述自变量X与因变量Y之间关系的函数f

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

5. 下列属于由混淆矩阵导出的评价准则的是（）。

A. 准确率

B. 精确率

C. 召回率

D. F1 score

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

6. 下列关于抽样的说法正确的是（）。

A. 抽样有多种方法，如有放回抽样、无放回抽样等

B. 无放回抽样则将抽出来的个体从抽样对象中去除

C. 有放回抽样有可能对同一个个体抽中了多次

D. 无放回抽样会有重复的个体

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

7. 依据离散因变量选项的含义和次序的不同，可以将多重选择模型分为（）.

A. ordinal probit模型

B. 有序模型

C. 无序模型渝粤题库

D. ordinal logit模型渝粤题库，我们的目标是要做全覆盖、全正确的答案搜索服务。

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

8. 下列方法无法降低频繁项集的计算复杂度的是（）。

A. 减少候选项集的数目

B. 减少比较次数

C. 增加候选项集的数目

D. 增加比较次数

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

9. 下列关于类间距确定方法说法正确的是（）。

A. 离差平方和法要求样本间距离必须采用欧氏距离；

B. 重心法没有考虑每一类中所包含的样本点数目；

C. 类平均法没有充分利用各个样本的信息；

D. 使用离差平方和作为类间距离时，如果聚类聚得恰当，类内样本点之间的离差平方和应该较小，类间离差平方和应该较大。

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

10. 统计和数据挖掘的主要区别是（）。

A. 统计侧重于从样本到总体的推断

B. 统计侧重于预测个体记录

C. 数据挖掘侧重于从样本到总体的推断

D. 数据挖掘侧重于预测个体记录

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

三、判断题

1. 白噪声序列是平稳时间序列。

A. √

B. ×

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

2. 在调用statsmodels进行数据分析时，往往采用数据分析接口(api)的方式进行。

A. √

B. ×

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

3. Pearson相关系数是反映两个变量的线性相关程度，但它并不能够度量变量之间的非线性相关程度。

A. √

B. ×

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

4. 对含有虚拟变量的回归方程进行分析，应当先确定分析的参照方程。

A. √

B. ×

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

5. 模型越复杂，偏差越大，方差越小；模型越简单，偏差越小，而方差越大。

A. √

B. ×

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

6. DB指数刻画的是一个平均距离，该指数越大，说明聚类越好。

A. √

B. ×

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

7. 快速聚类要事先确定聚类个数，但是运算速度很快，适合少量数据的情况。

A. √

B. ×

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

8. duplicated()函数会返回一个布尔数组，表明每一行是否与前面行有重复。

A. √

B. ×

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

9. 决策树中，C4.5算法是ID3算法的延伸，可以处理缺失值、连续变量及剪枝等。

A. √

B. ×

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

10. 决策树中，ID3算法只能处理定性变量，且一个变量使用过后就不能再次使用了。

A. √

B. ×

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

四、配伍题

1. 请为名词选择①-④表示其含义的描述，将配好的A-D填写到括号中。

A. ①真正类 ->

B. 如果一个点属于负类并且被预测到正类中

C. 如果一个点属于正类并且被预测到正类中

D. ②假正类 ->

E. 如果一个点属于正类并且被预测到负类中

F. ③真负类 ->

G. 如果一个点属于负类并且被预测到负类中

H. ④假负类 ->

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

关注公众号【国开搜题】，回复【试题】获取试题答案

【国开搜题】国家开放大学 一网一平台24春大数据分析与挖掘技术试卷包01期末考试押题试卷与答案

来源：百年教育职业培训中心 更新时间：2024-04-22 00:27:43

【国开搜题】国家开放大学一网一平台24春大数据分析与挖掘技术试卷包01期末考试押题试卷与答案

来源：百年教育职业培训中心　更新时间：2024-04-22 00:27:43