百年教育职业培训中心 百年教育学习服务平台
国开搜题

2024秋最新国家开放大学国开电大机考期末春大数据分析与挖掘技术试卷包新机考期末试卷参考试题

来源: 更新时间:

23春大数据分析与挖掘技术试卷包-新-03关注公众号【飞鸟搜题】,回复【试题】获取试卷答案文档说明:本人针对该科精心汇总了历年题库及答案,形成一个完整的题库,并且每年都在更新。该题库对考生的复习、作业

23春大数据分析与挖掘技术试卷包-新-03

关注公众号【飞鸟搜题】,回复【试题】获取试卷答案

文档说明:本人针对该科精心汇总了历年题库及答案,形成一个完整的题库,并且每年都在更新。该题库对考生的复习、作业和考试起着非常重要的作用,会给您节省大量的时间。做考题时,利用本文档中的查找工具,把考题中的关键字输到查找工具的查找内容框内,就可迅速查找到该题答案。本文库还有期末考核试题、其他网核及教学考一体化、一网一平台复习试题与答案,敬请查看。

课程题目试题是随机的,请按题目关键词查找(或按Ctrl+F输入题目中的关键词,尽量不要输入整个题目,不要复制空格,连续的几个字就行)

本文由【飞鸟搜题】微信公众号提供,禁止复制盗取,违者必究

本文由【飞鸟搜题】微信公众号提供,禁止复制盗取,违者必究

本文由【飞鸟搜题】微信公众号提供,禁止复制盗取,违者必究


一 、单选题

1. 根据从不同总体中随机抽取出来的不同样本,在分析样本特征的基础上建立一定的判别法则,根据新的样本特征和判别法则判别新样本应该来自哪一个总体的是:( )

A. 回归分析

B. 聚类分析

C. 主成分分析

D. 判别分析

答案:D
- 关注公众号【飞鸟搜题】查看答案

2. 下列不属于分类算法的是( )。

A. 决策树

B. Kmeans

C. 最近邻分类

D. 支持向量机

答案:B
- 关注公众号【飞鸟搜题】查看答案

3. 下列属于聚类模型评价的内部指标的是( )。

A. DB指数

B. Jaccard系数

C. FM指数

D. Rand指数

答案:A
- 关注公众号【飞鸟搜题】查看答案

4. 下列关于偏差和方差的说法不正确的是( )。

A. 偏差和方差受模型的复杂度影响

B. 模型越复杂,偏差越小,方差越大

C. 模型越复杂,偏差越大,方差越小

D. 模型越简单,偏差越大,而方差越小

答案:C
- 关注公众号【飞鸟搜题】查看答案

5. 下列不属于聚类模型评价的外部指标的是( )。

A. DB指数

B. Jaccard系数

C. FM指数

D. Rand指数

答案:关注公众号【飞鸟搜题】查看答案

6. 下列不属于期望预测误差的是( )。

A. 模型假设失误带来的误差

B. 采用某种方法估计最优值时,估计值的平均可能偏离了真实值

C. 估计值自身由于数据的随机性产生一个波动部分

D. 一些主观人为因素

答案:关注公众号【飞鸟搜题】查看答案

7. Minkowski距离指的是:( )

A. 闵可夫斯基距离

B. 车比雪夫距离

C. 欧氏距离

D. 马氏距离

答案:关注公众号【飞鸟搜题】查看答案

8. 在聚类分析中,如果新类与其他类别之间存在多个点与点之间的距离,先让每个样本自身各成一类,然后并类,每并一类离差平方和就要增大,选择使其增量最小的两类合并,直到所有的样本聚为一类,该方法为( )。

A. 中间距离法

B. 离差平方和法

C. 重心法

D. 类平均法

答案:关注公众号【飞鸟搜题】查看答案

9. 如果一个时间序列的概率分布与时间t无关,则称该序列为( )。

A. 绝对数时间序列

B. 平稳时间序列

C. 非平稳时间序列

D. 相对数时间序列

答案:关注公众号【飞鸟搜题】查看答案

10. 对非平稳的时间序列进行转化,使之成为平稳时间序列的数据转换过程,称为( )。

A. 零均值化

B. 标准化

C. 平稳化

D. 归一化

答案:关注公众号【飞鸟搜题】查看答案

11. 若关联规则为{牛奶,尿布}→{啤酒}:{牛奶,尿布,啤酒},项集的支持度计数为2,而事务总数为5,则该项集的置信度为( )。

A. 0.4

B. 0.67

C. 2

D. 5

答案:关注公众号【飞鸟搜题】查看答案

12. 下列关于相关系数r的说法不正确的是( )。

A. r具有对称性

B. r的数值的大小与x和y的计量尺度有关

C. r无法反映两个变量之间的因果关系

D. r≥0时,表明两个变量之间存在正线性相关关系

答案:关注公众号【飞鸟搜题】查看答案

13. 下列关于相关系数r的说法不正确的是( )。

A. r具有对称性

B. r的数值的大小与x和y的计量尺度无关

C. r无法反映两个变量之间的因果关系

D. r≥0时,表明两个变量之间存在负线性相关关系

答案:关注公众号【飞鸟搜题】查看答案

14. 下列操作不属于数据分析和挖掘的一般流程的是( )。

A. 数据预处理

B. 探索性分析

C. 从平台或渠道获取数据

D. 将模型结果进行可视化

答案:关注公众号【飞鸟搜题】查看答案

15. 关于统计和数据挖掘,下列说法错误的是( )。

A. 统计侧重于从样本到总体的推断

B. 数据挖掘侧重于预测个体记录

C. 经典统计中强调的推断在数据挖掘中已不存在

D. 经典统计中强调的推断在数据挖掘中依然存在

答案:关注公众号【飞鸟搜题】查看答案

16. 对于分析多个属性的离散因变量与自变量的关系的模型是( )。

A. 线性概率模型

B. 计数模型

C. 二元选择模型

D. 多重选择模型

答案:关注公众号【飞鸟搜题】查看答案

17. 当数据具有尖峰厚尾的分布特征或有离群点(即异常值)时,模型的稳健性( )。

A. 没有影响

B. 较好

C. 较差

D. 无法判断

答案:关注公众号【飞鸟搜题】查看答案

18. 定性因素对因变量的影响在进行回归分析的过程中,需要进行特殊的处理是( )。

A. 把定性变量取对数再做分析

B. 把定性变量转化为虚拟变量之后再引入回归模型中进行分析

C. 把定性变量去掉

D. 无需做任何处理

答案:关注公众号【飞鸟搜题】查看答案

19. 数据整合是一个将两个或者多个对象的值合并成一个对象的预处理操作,数据整合不包括( )。

A. 删除数据的异常值

B. 减少接下来处理数据的大小

C. 改变粒度分析(从精细到粗放尺度)

D. 提高数据的解释能力

答案:关注公众号【飞鸟搜题】查看答案

20. 下列关于设定虚拟变量时应当遵循的原则说法不正确的是( )。

A. 对于有k个表现值的定性变量,只设定(k-1)个虚拟变量

B. 虚拟变量的值通常用“0”或“1”来表示

C. 对于每个样本而言,同一个定性变量对应虚拟变量的值之和不超过1

D. 设定虚拟变量时对其数量一般不做要求

答案:关注公众号【飞鸟搜题】查看答案

二 、多选题

1. 下列不属于按相关因素(变量)之间的关系形态不同将相关关系分类的是( )。

A. 单相关

B. 复相关

C. 线性相关

D. 非线性相关

答案:关注公众号【飞鸟搜题】查看答案

2. 常用的核函数有( )。

A. 线性核

B. 高斯核

C. 神经网络核

D. 多项式核

答案:关注公众号【飞鸟搜题】查看答案

3. 下列关于随机森林算法,说法正确的是( )。

A. 建立决策树的过程中,需要注意采样和完全分裂两点;

B. 建立决策树过程中需要两个随机采样,即行采样和列采样;

C. 对于行采样,采样无放回的方式;

D. 采用完全分裂的方式构建决策树,这样决策树的某个叶节点要么无法继续分裂,要么里面的所有样本都指向同一个分类。

答案:关注公众号【飞鸟搜题】查看答案

4. 按照不同的性质和特征,可以对时间序列进行分类,从统计特性上来看,时间序列可以分为( )。

A. 绝对数时间序列

B. 平稳时间序列

C. 非平稳时间序列

D. 相对数时间序列

答案:关注公众号【飞鸟搜题】查看答案

5. 下列不属于缺失值的产生原因的是( )。

A. 数据本身为异常值

B. 某些原因没有收集到信息

C. 对于这些个体来说这些属性是不可用的

D. 数据重复出现

答案:关注公众号【飞鸟搜题】查看答案

6. 依据离散因变量选项的含义和次序的不同,可以将多重选择模型分为( ).

A. ordinal probit模型

B. 有序模型

C. 无序模型

D. ordinal logit模型

答案:关注公众号【飞鸟搜题】查看答案

7. Python中常见的序列数据结构类型有( )。

A. 数字

B. 列表

C. 元组

D. 字典

答案:关注公众号【飞鸟搜题】查看答案

8. 下列关于性能评估的指标说法正确的是( )。

A. 对于预测任务的数据挖掘,性能评估的指标包括平均绝对误差和均方根误差等

B. 对于分类任务的数据挖掘,评价指标一般可通过一个混淆矩阵计算得到

C. 数据挖掘方法预测性能的评估是数据挖掘中的一个重要内容

D. ROC曲线不是常用的评价方法

答案:关注公众号【飞鸟搜题】查看答案

9. 下列关于AUC的说法正确的是( )。

A. AUC被定义为ROC曲线下的面积,也就是ROC曲线的积分

B. 通常取值在0.5~1

C. 随机挑选一个正样本以及一个负样本,分类器判定正样本的值高于负样本的概率就是AUC值

D. AUC值(面积)越小的分类器,性能越好

答案:关注公众号【飞鸟搜题】查看答案

10. 下列关于类间距确定方法说法正确的是( )。

A. 离差平方和法要求样本间距离必须采用欧氏距离;

B. 重心法没有考虑每一类中所包含的样本点数目;

C. 类平均法没有充分利用各个样本的信息;

D. 使用离差平方和作为类间距离时,如果聚类聚得恰当,类内样本点之间的离差平方和应该较小,类间离差平方和应该较大。

答案:关注公众号【飞鸟搜题】查看答案

三 、判断题

1. 聚类分析中,快速聚类一般用于小样本情况下的样本聚类。

A.

B. ×

答案:关注公众号【飞鸟搜题】查看答案

2. 拖尾是指在自相关系数图或偏自相关系数图中,自相关系数或偏自相关系数的前几期处于置信区间之外,而之后是系数基本上都落入置信区间内,且逐渐趋于零。

A.

B. ×

答案:关注公众号【飞鸟搜题】查看答案

3. 随机挑选一个正样本以及一个负样本,分类器判定正样本的值高于负样本的概率就是AUC值。

A.

B. ×

答案:关注公众号【飞鸟搜题】查看答案

4. 在回归学习中常用的损失函数是指数损失函数。

A.

B. ×

答案:关注公众号【飞鸟搜题】查看答案

5. 数据挖掘的对象是各种各样的数据,针对不同的数据其分析方法可能是不同的,所以说数据挖掘没有章法。

A.

B. ×

答案:关注公众号【飞鸟搜题】查看答案

6. 马氏距离不受总体空间大小的影响,也不受计量单位的影响,反映了按平均水平计算被判定样本到中心的相对距离。

A.

B. ×

答案:关注公众号【飞鸟搜题】查看答案

7. 贝叶斯判别既没有考虑每个分类的观察值不同时,每类出现的机会是不同的,也没有考虑误判所造成的损失差异。

A.

B. ×

答案:关注公众号【飞鸟搜题】查看答案

8. 无放回抽样有可能对同一个个体抽中了多次,有放回抽样则将抽出来的个体从抽样对象中去除,因此不会有重复的个体。

A.

B. ×

答案:关注公众号【飞鸟搜题】查看答案

9. 隐变量是不能直接进行观测,但可以通过其他直接观测得到的变量(显变量)进行描述和反映的变量。

A.

B. ×

答案:关注公众号【飞鸟搜题】查看答案

10. r具有对称性,x与y之间的相关系数与y与x之间的相关系数相等。

A.

B. ×

答案:关注公众号【飞鸟搜题】查看答案

四 、配伍题

1. 请为名词选择①-④表示其含义的描述,将配好的A-D填写到括号中。

A. ①真正类 ->

B. 如果一个点属于负类并且被预测到正类中

C. 如果一个点属于正类并且被预测到正类中

D. ②假正类 ->

E. 如果一个点属于正类并且被预测到负类中

F. ③真负类 ->

G. 如果一个点属于负类并且被预测到负类中

H. ④假负类 ->

答案:关注公众号【飞鸟搜题】查看答案

关注公众号【飞鸟搜题】,回复【试题】获取试卷答案

电话咨询