百年教育职业培训中心 百年教育学习服务平台
题库试卷

【国开搜题】国家开放大学 一网一平台24春大数据分析与挖掘技术试卷包新02期末考试押题试卷与答案

来源: 更新时间:

23春大数据分析与挖掘技术试卷包-新-02关注公众号【国开搜题】,回复【试题】获取试题答案一、单选题1.在决策树中,节点熵越大,那么()A.节点的不纯度越低B.节点的不纯度越高C.节点越靠近根节点D.

23春大数据分析与挖掘技术试卷包--02

关注公众号【国开搜题】,回复【试题】获取试题答案

、单选题

1. 在决策树中,节点熵越大,那么(

A. 节点的不纯度越低

B. 节点的不纯度越高

C. 节点越靠近根节点

D. 节点越靠近叶节点

答案:B
- 关注公众号【国开搜题】,对话框内发送试题,获得答案。

2. 关于混淆矩阵,如果一个点属于负类并且被预测到负类中,称为:(

A. 真正类;

B. 假正类;

C. 真负类;

D. 假负类。

答案:C
- 关注公众号【国开搜题】,对话框内发送试题,获得答案。

3. 下列关于AUC的说法不正确的是( )。

A. AUC被定义为ROC曲线下的面积,也就是ROC曲线的积分

B. 通常取值在0.5~1

C. 随机挑选一个正样本以及一个负样本,分类器判定正样本的值高于负样本的概率就是AUC

D. AUC值(面积)越小的分类器,性能越好

答案:D
- 关注公众号【国开搜题】,对话框内发送试题,获得答案。

4. 下列不属于回归模型评价指标的是( )。

A. 平均绝对误差渝粤题库,我们的目标是要做全覆盖、全正确的答案搜索服务。

B. 平均相对误差

C. 平均平方误差

D. 决定系数

答案:B
- 关注公众号【国开搜题】,对话框内发送试题,获得答案。

5. 在回归学习中常用的损失函数是( )。

A. 0-1损失函数

B. 平方损失函数渝粤搜题

C. 指数损失函数国开搜题

D. 负二项损失函数

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

6. 下列关于性能评估的指标说法错误的是( )。

A. 对于预测任务的数据挖掘,性能评估的指标包括平均绝对误差和均方根误差等

B. 对于分类任务的数据挖掘,评价指标一般可通过一个混淆矩阵计算得到国开一网一平台

C. 数据挖掘方法预测性能的评估是数据挖掘中的一个重要内容

D. ROC曲线不是常用的评价方法

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。国开一网一平台

7. 下列关于类间距确定方法说法正确的是( )。

A. 离差平方和法要求样本间距离必须采用欧氏距离;

B. 重心法没有考虑每一类中所包含的样本点数目;

C. 类平均法没有充分利用各个样本的信息;

D. 使用离差平方和作为类间距离时,如果聚类聚得恰当,类内样本点之间的离差平方和应该较大,类间离差平方和应该较小。

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

8. 在聚类分析中,如果新类与其他类别之间存在多个点与点之间的距离,通过用不同类的样本点两两之间的平均距离作为类间距离的方法为( )。

A. 中间距离法

B. 离差平方和法

C. 重心法

D. 类平均法国开搜题

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

9. 要通过某超市历史1年的客流量数据预测未来的客流量,通常采用( )

A. 分类

B. 时间序列模型

C. 关联分析

D. 聚类分析

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

10. 如果销售额数据与时间有密切相关的联系,即销售额数值随时间的推进而不断上升,则称该序列为( )。

A. 绝对数时间序列

B. 宽平稳时间序列

C. 非平稳时间序列

D. 严平稳时间序列

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

11. 下列关于相关系数r的说法不正确的是( )。

A. r具有对称性

B. r的数值的大小与xy的计量尺度无关

C. r能够反映两个变量之间的因果关系

D. r≥0时,表明两个变量之间存在正线性相关关系

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

12. 按相关因素(变量)之间的相关方向,可以将相关关系分为( )。

A. 单相关和复相关

B. 正相关和负相关

C. 线性相关和非线性相关

D. 偏相关和参数相关

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。渝粤题库,我们的目标是要做全覆盖、全正确的答案搜索服务。

13. 按相关因素(变量)的多少,可以将相关关系分为( )。

A. 单相关和复相关

B. 正相关和负相关

C. 线性相关和非线性相关

D. 偏相关和参数相关

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

14. 下列关于Python的说法错误的是( )。

A. Python是一种面向对象的解释型高级编程语言

B. 可移植性和可扩展性不强

C. 结构简单,语法和代码定义清晰明确

D. 易于学习和维护

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

15. 下列关于Python中的注释说法正确的是( )。

A. Python中可以使用“#”作为注释,“#”右边的一切内容均不会被执行

B. Python中可以使用“#”进行一行或多行注释

C. Python中注释下的一切内容会被执行但不显示

D. Python中只有使用“#”这一种注释方法

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

16. 对于某个时间、空间等范围内事情发生次数的计数数据,一般都认为其近似服从( )。

A. 卡方分布

B. 韦布尔分布

C. 标准正态分布

D. 泊松分布

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

17. 对于分析多个属性的离散因变量与自变量的关系的模型是( )。

A. 线性概率模型

B. 计数模型

C. 二元选择模型

D. 多重选择模型

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。渝粤教育

18. 假定隐变量的随机误差项服从标准正态分布的模型是( )。

A. 线性概率模型

B. 二元Probit模型

C. 二元Logit模型

D. 计数模型

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

19. 数据预处理是数据分析工作的( )。

A. 实施阶段

B. 准备阶段

C. 总结阶段渝粤搜题

D. 收尾阶段

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

20. 下列关于抽样的说法正确的是( )。

A. 抽样有多种方法,如有放回抽样、无放回抽样等

B. 有放回抽样则将抽出来的个体从抽样对象中去除

C. 无放回抽样有可能对同一个个体抽中了多次

D. 无放回抽样会有重复的个体

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

、多选题

1. 下列关于支持度和置信度的说法不正确的是( )。

A. 置信度确定规则可以用于给定数据集的频繁程度

B. 支持度确定规则可以用于给定数据集的频繁程度

C. 置信度确定Y在包含X的事务中出现的频繁程度

D. 支持度确定Y在包含X的事务中出现的频繁程度

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

2. 根据已知或假定总体是否服从一定的分布(如多元正态分布),可以将判别分析的判别规则分为( )。

A. 两组判别分析

B. 参数判别规则

C. 非参数判别规则

D. 多组判别分析

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。渝粤教育

3. 下面关于决策树的剪枝操作理解不正确的是( )。

A. 对决策树进行剪枝的目的是提高模型的预测误差

B. 对决策树进行剪枝是为了提高模型的解释能力

C. 只能在生成决策树后再剪枝

D. 剪枝就是从下往上的剪掉一些节点渝粤题库

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

4. 下面白噪声序列说法正确的是( )。

A. 具有零均值

B. 具有同方差性

C. 协方差为零

D. 不是平稳时间序列

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

5. 一般数据的预处理,主要包括( )。

A. 异常点检测

B. 噪声数据检测

C. 缺失值的处理

D. 重复数据的处理

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

6. 依据离散因变量选项的含义和次序的不同,可以将多重选择模型分为( .

A. ordinal probit模型

B. 有序模型

C. 无序模型

D. ordinal logit模型

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

7. 下列关于Python的说法正确的是( )。渝粤教育

A. Python是一种面向对象的解释型高级编程语言

B. 可移植性和可扩展性不强

C. 结构简单,语法和代码定义清晰明确

D. 易于学习和维护

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

8. 下列属于常用的损失函数的是( )。

A. 0-1损失函数

B. 平方损失函数

C. 指数损失函数

D. 负二项损失函数

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

9. 下列属于聚类模型评价的内部指标的是( )。

A. DB指数

B. Jaccard系数

C. Dunn指数

D. Rand指数

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

10. 聚类分析中,关于内部评价指标说法正确的是( )。

A. DBI指数越大,说明聚类结果越好

B. DBI指数越小,说明聚类结果越好

C. DI指数越大,说明聚类结果越好

D. DI指数越小,说明聚类结果越好

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

、判断题

1. DBSCAN算法中,密度可达是直接密度可达的传递闭包,并且这种关系是非对称的。

A.

B. ×国开搜题

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

2. 数据是随时间变化而变化,反映了事物、现象在时间上的发展变动情况,称为时间序列数据。

A.

B. ×

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

3. 有监督学习模型的目的是寻找一个可以很好地描述自变量X与因变量Y之间关系的函数f

A.

B. ×

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

4. DB指数刻画的是一个平均距离,该指数越大,说明聚类越好。

A.

B. ×

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

5. Python是一种面向对象的解释型高级编程语言,其结构简单,易于学习和维护,但可移植性和可扩展性较差。

A.

B. ×

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

6. 决策树中,我们需要比较父节点与子节点的不纯度,他们的差越小,测试条件的效果就越好。

A.

B. ×

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

7. 决策树中,我们需要比较父节点与子节点的不纯度,他们的差越大,测试条件的效果就越好。

A.

B. ×

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

8. 主成分是原始变量的线性组合,它们相互正交(垂直),捕获了数据差异最大的方向。

A.

B. ×

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

9. 二元选择模型的的参数估计结果可以理解为自变量变动对因变量的边际影响,应当理解为自变量的变动。

A. 渝粤题库

B. ×

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

10. 置信度确定Y在包含X的事务中出现的频繁程度。

A.

B. ×

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

、配伍题

1. 请为名词选择①-④表示其含义的描述,将配好的A-D填写到括号中。 dij表示第i个样本与第j个样本之间的距离。

A. 绝对距离 ->

B. dij∞=max1≤k≤p⁡xik-xjk

C. 切比雪夫距离 ->

D. dij1=∑k=1pxik-xjk

E. dij=Xi-Xj'∑-1Xi-Xj

F. 马氏距离 ->国开搜题

G. 欧氏距离 ->

H. dij2=∑k=1pxik-xjk21/2

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

关注公众号【国开搜题】,回复【试题】获取试题答案

电话咨询