国开搜题

2024秋最新国家开放大学国开电大机考期末春大数据分析与挖掘技术试卷包新5机考期末试卷参考试题

来源：百年教育职业培训中心　更新时间：2024-12-13 04:25:03

23春大数据分析与挖掘技术试卷包-新-05关注公众号【飞鸟搜题】，回复【试题】获取试卷答案文档说明:本人针对该科精心汇总了历年题库及答案，形成一个完整的题库，并且每年都在更新。该题库对考生的复习、作业

23春大数据分析与挖掘技术试卷包-新-05

关注公众号【飞鸟搜题】，回复【试题】获取试卷答案

文档说明:本人针对该科精心汇总了历年题库及答案，形成一个完整的题库，并且每年都在更新。该题库对考生的复习、作业和考试起着非常重要的作用，会给您节省大量的时间。做考题时，利用本文档中的查找工具，把考题中的关键字输到查找工具的查找内容框内，就可迅速查找到该题答案。本文库还有期末考核试题、其他网核及教学考一体化、一网一平台复习试题与答案，敬请查看。

课程题目试题是随机的，请按题目关键词查找（或按Ctrl+F输入题目中的关键词，尽量不要输入整个题目，不要复制空格，连续的几个字就行）

本文由【飞鸟搜题】微信公众号提供，禁止复制盗取，违者必究

一、单选题

1. 下列关于随机森林算法，说法错误的是（）

A. 建立决策树的过程中，需要注意采样和完全分裂两点；

B. 建立决策树过程中需要两个随机采样，即行采样和列采样；

C. 对于行采样，采样无放回的方式；

D. 采用完全分裂的方式构建决策树，这样决策树的某个叶节点要么无法继续分裂，要么里面的所有样本都指向同一个分类。

答案：C
- 关注公众号【飞鸟搜题】查看答案

2. 对每个样本，先计算判别函数得分，然后根据先验概率和判别函数得分的条件概率，计算出该样本被判为每一类的后验概率，被判入哪一类的后验概率最大，则把样本判为哪一类。该分类方法是（）

A. 聚类判别

B. 决策树

C. 贝叶斯判别

D. 线性判别

答案：C
- 关注公众号【飞鸟搜题】查看答案

3. 下列不属于回归模型评价指标的是（）。

A. 平均绝对误差

B. 平均相对误差

C. 平均平方误差

D. 决定系数

答案：B
- 关注公众号【飞鸟搜题】查看答案

4. 下列关于决定系数的说法不正确的是（）。

A. 越接近于0说明模型拟合得越好

B. 决定系数是指模型解释了的数据波动的比例

C. 取值区间为[0,1]

D. 越接近于1说明模型拟合得越好

答案：A
- 关注公众号【飞鸟搜题】查看答案

5. 下列属于聚类模型评价的内部指标的是（）。

A. DB指数

B. Jaccard系数

C. FM指数

D. Rand指数

答案：关注公众号【飞鸟搜题】查看答案

6. 下列关于AUC的说法不正确的是（）。

A. AUC被定义为ROC曲线下的面积，也就是ROC曲线的积分

B. 通常取值在0.5~1

C. 随机挑选一个正样本以及一个负样本，分类器判定正样本的值高于负样本的概率就是AUC值

D. AUC值（面积）越小的分类器，性能越好

答案：关注公众号【飞鸟搜题】查看答案

7. 在聚类过程中的类需要遵从的原则中，保证了类别之内个体特征的共性的原则是（）。

A. 同质性原则

B. 互斥性原则

C. 完备性原则

D. 充分性原则

答案：关注公众号【飞鸟搜题】查看答案

8. 快速聚类中，要确定数据到底聚成几个类合适，我们可以设定K从1到K的变化，计算相应的（），选择其最（）的类别个数。

A. SSE；大

B. SSE；小

C. SSR；大

D. SSR；小

答案：关注公众号【飞鸟搜题】查看答案

9. 平稳时间序列的自相关系数图拖尾, 偏自相关系数图p阶截尾,可以识别为（）模型

A. MA(p)

B. ARIMA(p,q)，q>0

C. AR(p)

D. ARMA(p,q)，q>0

答案：关注公众号【飞鸟搜题】查看答案

10. 如图是某模型最小信息数值，根据结果可以选择最优模型是（）。

A. MA(1)

B. ARMA(1,1)

C. AR(1)

D. ARMA(0,1)

答案：关注公众号【飞鸟搜题】查看答案

11. 按相关因素（变量）的多少，可以将相关关系分为（）。

A. 单相关和复相关

B. 正相关和负相关

C. 线性相关和非线性相关

D. 偏相关和参数相关

答案：关注公众号【飞鸟搜题】查看答案

12. 相关分析根据相关关系表现形式的不同可以分为（）。

A. 简单相关分析和复杂相关分析

B. 偏相关分析和非偏相关分析

C. 线性相关分析和非线性相关分析

D. 参数相关分析和非参数相关分析

答案：关注公众号【飞鸟搜题】查看答案

13. 相关分析根据其分析方法和处理对象不同可以分为（）。

A. 简单相关分析、偏相关分析和非参数相关分析

B. 简单相关分析、复杂相关分析和非参数相关分析

C. 线性相关分析和非线性相关分析

D. 简单相关分析和复杂相关分析

答案：关注公众号【飞鸟搜题】查看答案

14. 关于统计和数据挖掘，下列说法错误的是（）。

A. 统计侧重于从样本到总体的推断

B. 数据挖掘侧重于预测个体记录

C. 经典统计中强调的推断在数据挖掘中已不存在

D. 经典统计中强调的推断在数据挖掘中依然存在

答案：关注公众号【飞鸟搜题】查看答案

15. 下列关于Python的说法错误的是（）。

A. Python是一种面向对象的解释型高级编程语言

B. 可移植性和可扩展性不强

C. 结构简单，语法和代码定义清晰明确

D. 易于学习和维护

答案：关注公众号【飞鸟搜题】查看答案

16. 对于分析多个属性的离散因变量与自变量的关系的模型是（）。

A. 线性概率模型

B. 计数模型

C. 二元选择模型

D. 多重选择模型

答案：关注公众号【飞鸟搜题】查看答案

17. 假定隐变量的随机误差项服从标准正态分布的模型是（）。

A. 线性概率模型

B. 二元Probit模型

C. 二元Logit模型

D. 计数模型

答案：关注公众号【飞鸟搜题】查看答案

18. 要考虑与运动会上获得的奖牌数相关的因素，比如参赛队总人数、运动员平均年龄、参与项目数等，此时最适合的模型是（）。

A. 线性回归模型

B. Logistic回归模型

C. 分位数回归

D. 计数模型

答案：关注公众号【飞鸟搜题】查看答案

19. 下列代码可以将数据data转换成数值型数据的是（）。

A. pd.to_numeric(data)

B. pd.to_num(data)

C. pd.to_number(data)

D. pd.to_string(data)

答案：关注公众号【飞鸟搜题】查看答案

20. 下列关于抽样的说法正确的是（）。

A. 抽样有多种方法，如有放回抽样、无放回抽样等

B. 有放回抽样则将抽出来的个体从抽样对象中去除

C. 无放回抽样有可能对同一个个体抽中了多次

D. 无放回抽样会有重复的个体

答案：关注公众号【飞鸟搜题】查看答案

二、多选题

1. 按相关因素（变量）之间的相关方向，可以将相关关系分为（）。

A. 单相关

B. 复相关

C. 正相关

D. 负相关

答案：关注公众号【飞鸟搜题】查看答案

2. 下列关于KNN算法说法错误的是（）。

A. 随着k值的增加，模型的复杂度增大。

B. 在实际应用中，一般采用交叉验证的方法来估计预测误差，找出使得估计的预测误差最小的k。

C. 最近邻分类每个样本都可以用它最接近的k个邻居来代表。

D. 近邻选得少，模型则比较稳健。

答案：关注公众号【飞鸟搜题】查看答案

3. 决策树算法的C4.5算法可以处理（）。

A. 定性变量

B. 缺失值

C. 连续变量

D. 剪枝

答案：关注公众号【飞鸟搜题】查看答案

4. 确定ARMA模型p、q的过程即为模型的识别过程，也称ARMA模型的定阶。下列属于模型识别的方法是（）。

A. 自相关系数

B. 协方差矩阵

C. 偏自相关系数图

D. 最小信息准则

答案：关注公众号【飞鸟搜题】查看答案

5. 下列关于主成分分析的说法错误的是（）。

A. 主成分分析一种经典的减少分析变量的方法

B. 主成分分析一种经典增加分析变量的方法

C. 它将数据从原始的高维空间投影到低维空间

D. 它将数据从原始的低维空间投影到高维空间

答案：关注公众号【飞鸟搜题】查看答案

6. 线性概率模型的缺点是（）

A. 解释变量的合理变化会导致预测概率溢出[0,1]区间；

B. 使用加权最小二乘法修正异方差性也无法保证概率预测值在[0,1]区间；

C. 随机误差项的分布未知；

D. 模型误差具有异方差性，异方差性使参数估计不具有时效性。

答案：关注公众号【飞鸟搜题】查看答案

7. 下列操作属于数据分析和挖掘的一般流程的是（）。

A. 数据预处理

B. 探索性分析

C. 从平台或渠道获取数据

D. 将模型结果进行可视化

答案：关注公众号【飞鸟搜题】查看答案

8. 下列关于决定系数的说法正确的是（）。

A. 越接近于0说明模型拟合得越好

B. 决定系数是指模型解释了的数据波动的比例

C. 取值区间为[0,1]

D. 越接近于1说明模型拟合得越好

答案：关注公众号【飞鸟搜题】查看答案

9. 下列属于聚类模型评价的外部指标的是（）。

A. DB指数

B. Jaccard系数

C. FM指数

D. Rand指数

答案：关注公众号【飞鸟搜题】查看答案

10. 下列关于类间距确定方法说法正确的是（）。

A. 离差平方和法要求样本间距离必须采用欧氏距离；

B. 重心法没有考虑每一类中所包含的样本点数目；

C. 类平均法没有充分利用各个样本的信息；

D. 使用离差平方和作为类间距离时，如果聚类聚得恰当，类内样本点之间的离差平方和应该较小，类间离差平方和应该较大。

答案：关注公众号【飞鸟搜题】查看答案

三、判断题

1. 聚类分析中，离差平方和法要求样本间距离必须采用欧氏距离。

A. √

B. ×

答案：关注公众号【飞鸟搜题】查看答案

2. 白噪声序列可以对时序模型拟合进行检验。

A. √

B. ×

答案：关注公众号【飞鸟搜题】查看答案

3. Dunn指数刻画了所有类两两之间的最短距离与最大类的“直径”之比，该指数越大，说明类与类之间分得越开。

A. √

B. ×

答案：关注公众号【飞鸟搜题】查看答案

4. DB指数刻画的是一个平均距离，该指数越小，说明聚类越好。

A. √

B. ×

答案：关注公众号【飞鸟搜题】查看答案

5. Python中的注释会被执行但不显示结果。

A. √

B. ×

答案：关注公众号【飞鸟搜题】查看答案

6. CART的结果不受自变量的单调变换的影响。

A. √

B. ×

答案：关注公众号【飞鸟搜题】查看答案

7. 先验概率与后验概率一定不相同。

A. √

B. ×

答案：关注公众号【飞鸟搜题】查看答案

8. 设定虚拟变量时，对于有k个表现值的定性变量，只设定（k-1）个虚拟变量。

A. √

B. ×

答案：关注公众号【飞鸟搜题】查看答案

9. 多项式回归类似于可线性化的非线性模型，可通过变量代换的方式使用普通最小二乘对参数进行估计。

A. √

B. ×

答案：关注公众号【飞鸟搜题】查看答案

10. 变量之间的影响不能够用具体的函数来度量，但变量之间的关系确实存在数量上不是严格对应的相互依存关系，则称这种关系为相关关系。

A. √

B. ×

答案：关注公众号【飞鸟搜题】查看答案

四、配伍题

1. 请为名词选择①-④表示其含义的描述，将配好的A-D填写到括号中。设dij表示第i个样本与第j个样本之间的距离。

A. ①绝对距离 ->

B. dij∞=max1≤k≤p⁡xik-xjk

C. ②切比雪夫距离 ->

D. dij1=∑k=1pxik-xjk

E. dij=Xi-Xj'∑-1Xi-Xj

F. ③马氏距离 ->

G. ④欧氏距离 ->

H. dij2=∑k=1pxik-xjk21/2

答案：关注公众号【飞鸟搜题】查看答案

关注公众号【飞鸟搜题】，回复【试题】获取试卷答案

2024秋最新国家开放大学国开电大机考期末春大数据分析与挖掘技术试卷包新5机考期末试卷参考试题

来源：百年教育职业培训中心 更新时间：2024-12-13 04:25:03

来源：百年教育职业培训中心　更新时间：2024-12-13 04:25:03