百年教育职业培训中心 百年教育学习服务平台
题库试卷

【国开搜题】国家开放大学 一网一平台24春大数据分析与挖掘技术试卷包01期末考试押题试卷与答案

来源: 更新时间:

23春大数据分析与挖掘技术试卷包-01关注公众号【国开搜题】,回复【试题】获取试题答案一、单选题1.下列关于Python的说法错误的是()。A.Python是一种面向对象的解释型高级编程语言B.可移植

23春大数据分析与挖掘技术试卷包-01

关注公众号【国开搜题】,回复【试题】获取试题答案

、单选题

1. 下列关于Python的说法错误的是( )。

A. Python是一种面向对象的解释型高级编程语言

B. 可移植性和可扩展性不强

C. 结构简单,语法和代码定义清晰明确

D. 易于学习和维护

答案:B
- 关注公众号【国开搜题】,对话框内发送试题,获得答案。

2. 如需在Python中安装第三方工具库或包(packages),可以在终端使用的 命令是( )。

A. install (package的名称)

B. install pip (package的名称)

C. pip install (package的名称)国开一网一平台

D. pip (package的名称)

答案:C
- 关注公众号【国开搜题】,对话框内发送试题,获得答案。

3. 下列关于抽样的说法错误的是( )。

A. 抽样有多种方法,如有放回抽样、无放回抽样等

B. 无放回抽样则将抽出来的个体从抽样对象中去除

C. 有放回抽样有可能对同一个个体抽中了多次

D. 无放回抽样会有重复的个体

答案:D
- 关注公众号【国开搜题】,对话框内发送试题,获得答案。

4. 下列代码可以将数据data转换成数值型数据的是( )。

A. pd.to_numeric(data)

B. pd.to_num(data)

C. pd.to_number(data)国开一网一平台

D. pd.to_string(data)

答案:B
- 关注公众号【国开搜题】,对话框内发送试题,获得答案。

5. 平稳时间序列的自相关系数图p阶截尾, 偏自相关系数图拖尾,可以识别为(

A. MA(p)

B. ARIMA(p,q)q>0

C. AR(p)

D. ARMA(p,q)q>0

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

6. 如图是某模型最小信息数值,根据结果可以选择最优模型是( )。

A. MA(1)

B. ARMA(1,1)

C. AR(1)渝粤教育

D. ARMA(0,1)

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

7. 下列关于性能评估的指标说法错误的是( )。

A. 对于预测任务的数据挖掘,性能评估的指标包括平均绝对误差和均方根误差等渝粤题库,我们的目标是要做全覆盖、全正确的答案搜索服务。

B. 对于分类任务的数据挖掘,评价指标一般可通过一个混淆矩阵计算得到国开搜题

C. 数据挖掘方法预测性能的评估是数据挖掘中的一个重要内容

D. ROC曲线不是常用的评价方法

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

8. 下列关于期望预测误差的说法错误的是( )。

A. 期望预测误差实际上是真实值与预测值在某种损失函数下的差值

B. 期望预测误差实际上是真实值与预测值在某种损失函数下的平均值

C. 通常我们使用期望预测误差作为寻优的目标函数

D. 有监督学习模型的目的是寻找一个可以很好地描述自变量X与因变量Y之间关系的函数f

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

9. 下列不属于回归模型评价指标的是( )。

A. 平均绝对误差

B. 平均相对误差

C. 平均平方误差

D. 决定系数

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

10. 下列属于聚类模型评价的内部指标的是( )。国开搜题

A. DB指数

B. Jaccard系数

C. FM指数

D. Rand指数

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。渝粤题库,我们的目标是要做全覆盖、全正确的答案搜索服务。

11. 下面哪个原则不是聚类过程中的类需要遵从的原则( )。

A. 同质性原则

B. 互斥性原则

C. 完备性原则

D. 充分性原则

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

12. 下列哪一项不属于聚类分析( )。

A. 系统聚类

B. 决策树

C. Kmeans

D. DBSCAN聚类

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

13. 当数据具有尖峰厚尾的分布特征或有离群点(即异常值)时,模型的稳健性( )。

A. 没有影响

B. 较好

C. 较差

D. 无法判断

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

14. 离散因变量具有两个选项或两种属性,离散因变量的属性往往是对立或互斥的模型是(

A. 线性概率模型

B. 计数模型

C. 二元选择模型

D. 多重选择模型

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

15. 假定隐变量的随机误差项服从Logit分布的模型是( )。

A. 线性概率模型

B. 二元Probit模型

C. 二元Logit模型

D. 计数模型渝粤题库,我们的目标是要做全覆盖、全正确的答案搜索服务。

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

16. 下列关于相关系数r的说法不正确的是( )。

A. r具有对称性

B. r的数值的大小与xy的计量尺度无关

C. r无法反映两个变量之间的因果关系

D. r≥0时,表明两个变量之间存在负线性相关关系

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

17. 若关联规则为{牛奶,尿布}→{啤酒}:{牛奶,尿布,啤酒},项集的支持度计数为2,而事务总数为5,则该项集的支持度为( )。

A. 0.4

B. 10

C. 2渝粤搜题

D. 5

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

18. 变量或数据之间的两种主要关系的是( )。渝粤题库

A. 因果关系和相关关系

B. 因果关系和依存关系

C. 函数关系和相关关系

D. 函数关系和依存关系

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

19. 试想有如图的两类数据,“1”点表示一类数据,“0”点表示另一类数据,当k=1时,请问图中实心的圆点(从左到右)各自属于哪一类。(

A. “1”“1”

B. “1”“0”渝粤题库,我们的目标是要做全覆盖、全正确的答案搜索服务。

C. “0”“0”

D. “0”“1”

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

20. (假定在某个节点)如果数据已经只有一类了,则该节点为叶节点,否则进行下一步。该算法是:(

A. Hunt

B. ID3

C. CART

D. C4.5

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

、多选题

1. 下面能够进行时间序列平稳性检验的是( )。

A. 自相关系数

B. 自相关图检验

C. 单位根检验

D. DW检验

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

2. 下列关于随机森林算法,说法正确的是( )。

A. 建立决策树的过程中,需要注意采样和完全分裂两点;

B. 建立决策树过程中需要两个随机采样,即行采样和列采样;

C. 对于行采样,采样无放回的方式;国开一网一平台

D. 采用完全分裂的方式构建决策树,这样决策树的某个叶节点要么无法继续分裂,要么里面的所有样本都指向同一个分类。

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

3. 下列不是判别分析的方法( )。

A. 距离判别国开一网一平台

B. 协方差阵判别

C. 聚类判别

D. 贝叶斯判别

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

4. 下列关于期望预测误差的说法正确的是( )。

A. 期望预测误差实际上是真实值与预测值在某种损失函数下的差值

B. 期望预测误差实际上是真实值与预测值在某种损失函数下的平均值

C. 通常我们使用期望预测误差作为寻优的目标函数

D. 有监督学习模型的目的是寻找一个可以很好地描述自变量X与因变量Y之间关系的函数f

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

5. 下列属于由混淆矩阵导出的评价准则的是( )。

A. 准确率

B. 精确率

C. 召回率

D. F1 score

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

6. 下列关于抽样的说法正确的是( )。

A. 抽样有多种方法,如有放回抽样、无放回抽样等

B. 无放回抽样则将抽出来的个体从抽样对象中去除

C. 有放回抽样有可能对同一个个体抽中了多次

D. 无放回抽样会有重复的个体

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

7. 依据离散因变量选项的含义和次序的不同,可以将多重选择模型分为( .

A. ordinal probit模型

B. 有序模型

C. 无序模型渝粤题库

D. ordinal logit模型渝粤题库,我们的目标是要做全覆盖、全正确的答案搜索服务。

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

8. 下列方法无法降低频繁项集的计算复杂度的是( )。

A. 减少候选项集的数目

B. 减少比较次数

C. 增加候选项集的数目

D. 增加比较次数

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

9. 下列关于类间距确定方法说法正确的是( )。

A. 离差平方和法要求样本间距离必须采用欧氏距离;

B. 重心法没有考虑每一类中所包含的样本点数目;

C. 类平均法没有充分利用各个样本的信息;

D. 使用离差平方和作为类间距离时,如果聚类聚得恰当,类内样本点之间的离差平方和应该较小,类间离差平方和应该较大。

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

10. 统计和数据挖掘的主要区别是( )。

A. 统计侧重于从样本到总体的推断

B. 统计侧重于预测个体记录

C. 数据挖掘侧重于从样本到总体的推断

D. 数据挖掘侧重于预测个体记录

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

、判断题

1. 白噪声序列是平稳时间序列。

A.

B. ×

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

2. 在调用statsmodels进行数据分析时,往往采用数据分析接口(api)的方式进行。

A.

B. ×

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

3. Pearson相关系数是反映两个变量的线性相关程度,但它并不能够度量变量之间的非线性相关程度。

A.

B. ×

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

4. 对含有虚拟变量的回归方程进行分析,应当先确定分析的参照方程。

A.

B. ×

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

5. 模型越复杂,偏差越大,方差越小;模型越简单,偏差越小,而方差越大。

A.

B. ×

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

6. DB指数刻画的是一个平均距离,该指数越大,说明聚类越好。

A.

B. ×

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

7. 快速聚类要事先确定聚类个数,但是运算速度很快,适合少量数据的情况。

A.

B. ×

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

8. duplicated()函数会返回一个布尔数组,表明每一行是否与前面行有重复。

A.

B. ×

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

9. 决策树中,C4.5算法是ID3算法的延伸,可以处理缺失值、连续变量及剪枝等。

A.

B. ×

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

10. 决策树中,ID3算法只能处理定性变量,且一个变量使用过后就不能再次使用了。

A.

B. ×

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

、配伍题

1. 请为名词选择①-④表示其含义的描述,将配好的A-D填写到括号中。

A. 真正类 ->

B. 如果一个点属于负类并且被预测到正类中

C. 如果一个点属于正类并且被预测到正类中

D. 假正类 ->

E. 如果一个点属于正类并且被预测到负类中

F. 真负类 ->

G. 如果一个点属于负类并且被预测到负类中

H. 假负类 ->

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

关注公众号【国开搜题】,回复【试题】获取试题答案

电话咨询