国开搜题

2024秋最新国家开放大学国开电大机考期末大数据分析与挖掘技术试卷包机考期末试卷参考试题

来源：百年教育职业培训中心　更新时间：2024-12-13 05:37:36

23春大数据分析与挖掘技术试卷包-02关注公众号【飞鸟搜题】，回复【试题】获取试卷答案文档说明:本人针对该科精心汇总了历年题库及答案，形成一个完整的题库，并且每年都在更新。该题库对考生的复习、作业和考

23春大数据分析与挖掘技术试卷包-02

关注公众号【飞鸟搜题】，回复【试题】获取试卷答案

文档说明:本人针对该科精心汇总了历年题库及答案，形成一个完整的题库，并且每年都在更新。该题库对考生的复习、作业和考试起着非常重要的作用，会给您节省大量的时间。做考题时，利用本文档中的查找工具，把考题中的关键字输到查找工具的查找内容框内，就可迅速查找到该题答案。本文库还有期末考核试题、其他网核及教学考一体化、一网一平台复习试题与答案，敬请查看。

课程题目试题是随机的，请按题目关键词查找（或按Ctrl+F输入题目中的关键词，尽量不要输入整个题目，不要复制空格，连续的几个字就行）

本文由【飞鸟搜题】微信公众号提供，禁止复制盗取，违者必究

一、单选题

1. 下列关于Python的说法错误的是（）。

A. Python是一种面向对象的解释型高级编程语言

B. 可移植性和可扩展性不强

C. 结构简单，语法和代码定义清晰明确

D. 易于学习和维护

答案：B
- 关注公众号【飞鸟搜题】查看答案

2. 在Python基本库中，最常见也是最主要的数据结构类型是（）。

A. 表格

B. 文字

C. 数组

D. 序列

答案：D
- 关注公众号【飞鸟搜题】查看答案

3. 下列关于设定虚拟变量时应当遵循的原则说法不正确的是（）。

A. 对于有k个表现值的定性变量，只设定（k-1）个虚拟变量

B. 虚拟变量的值通常用“0”或“1”来表示

C. 对于每个样本而言，同一个定性变量对应虚拟变量的值之和不超过1

D. 设定虚拟变量时对其数量一般不做要求

答案：D
- 关注公众号【飞鸟搜题】查看答案

4. 下列关于主成分分析的说法错误的是（）。

A. 主成分分析一种经典的减少分析变量的方法

B. 它将数据从原始的低维空间投影到高维空间

C. 它将数据从原始的高维空间投影到低维空间

D. 所有原始变量可通过变换的方式得到综合变量，称为主成分

答案：B
- 关注公众号【飞鸟搜题】查看答案

5. 为了能进行ARIMA时间序列分析建模，通常将非平稳时间序列进行（）和（），将其转化为零均值平稳时间序列。

A. 零均值化；平稳化

B. 零均值化；标准化

C. 标准化；平稳化

D. 标准化；归一化

答案：关注公众号【飞鸟搜题】查看答案

6. 指事物或现象呈周而复始的变动，且是无固定规律的交替波动，称为( )

A. 长期趋势

B. 季节变动

C. 循环波动

D. 不规则变动

答案：关注公众号【飞鸟搜题】查看答案

7. 在回归学习中常用的损失函数是（）。

A. 0-1损失函数

B. 平方损失函数

C. 指数损失函数

D. 负二项损失函数

答案：关注公众号【飞鸟搜题】查看答案

8. 下列不属于回归模型评价指标的是（）。

A. 平均绝对误差

B. 平均相对误差

C. 平均平方误差

D. 决定系数

答案：关注公众号【飞鸟搜题】查看答案

9. 下列属于聚类模型评价的内部指标的是（）。

A. DB指数

B. Jaccard系数

C. FM指数

D. Rand指数

答案：关注公众号【飞鸟搜题】查看答案

10. 下列关于AUC的说法不正确的是（）。

A. AUC被定义为ROC曲线下的面积，也就是ROC曲线的积分

B. 通常取值在0.5~1

C. 随机挑选一个正样本以及一个负样本，分类器判定正样本的值高于负样本的概率就是AUC值

D. AUC值（面积）越小的分类器，性能越好

答案：关注公众号【飞鸟搜题】查看答案

11. 快速聚类中，要确定数据到底聚成几个类合适，我们可以设定K从1到K的变化，计算相应的SSE，下图设定了K的取值为1，2，3，4，5，6。K选（）最为合适。

A. 1

B. 2

C. 3

D. 6

答案：关注公众号【飞鸟搜题】查看答案

12. DBSCAN 算法需要用户输入两个参数:一个参数是（），表示以给定点P为中心的圆形邻域;另一个参数是以点P为中心的邻域内最（）点的数量(MinPts)。

A. 半径；小

B. 半径；大

C. 直径；小

D. 直径；大

答案：关注公众号【飞鸟搜题】查看答案

13. 分析自变量对计数因变量的影响时所建立的模型为（）。

A. 线性回归模型

B. Logistic回归模型

C. 分位数回归

D. 计数模型

答案：关注公众号【飞鸟搜题】查看答案

14. 定性因素对因变量的影响在进行回归分析的过程中，需要进行特殊的处理是（）。

A. 把定性变量取对数再做分析

B. 把定性变量转化为虚拟变量之后再引入回归模型中进行分析

C. 把定性变量去掉

D. 无需做任何处理

答案：关注公众号【飞鸟搜题】查看答案

15. 要考虑与运动会上获得的奖牌数相关的因素，比如参赛队总人数、运动员平均年龄、参与项目数等，此时最适合的模型是（）。

A. 线性回归模型

B. Logistic回归模型

C. 分位数回归

D. 计数模型

答案：关注公众号【飞鸟搜题】查看答案

16. 下列关于关联规则的说法不正确的是（）。

A. 关联规则的强度可以用支持度和置信度度量

B. 支持度确定规则可以用于给定数据集的频繁程度

C. 置信度确定Y在包含X的事务中出现的频繁程度

D. 支持度确定Y在包含X的事务中出现的频繁程度

答案：关注公众号【飞鸟搜题】查看答案

17. 下列关于相关系数r的说法不正确的是（）。

A. 当r=0时，表现为完全不相关

B. 当r=0时，表现为无线性相关

C. 当r取值为-1时，表示为完全负线性相关

D. 当r取值为1时，表示为完全正线性相关

答案：关注公众号【飞鸟搜题】查看答案

18. 按相关因素（变量）之间的相关方向，可以将相关关系分为（）。

A. 单相关和复相关

B. 正相关和负相关

C. 线性相关和非线性相关

D. 偏相关和参数相关

答案：关注公众号【飞鸟搜题】查看答案

19. 在决策树中，节点熵越大，那么（）

A. 节点的不纯度越低

B. 节点的不纯度越高

C. 节点越靠近根节点

D. 节点越靠近叶节点

答案：关注公众号【飞鸟搜题】查看答案

20. 下列哪一个方法适用于类域的交叉或重叠较多的待分样本集（）

A. 决策树

B. 随机森林

C. KNN算法

D. 支持向量机

答案：关注公众号【飞鸟搜题】查看答案

二、多选题

1. 下列关于时间序列说法错误的是（）。

A. 宽平稳时间序列其特征即均值和协方差不随时间变化而变化。

B. 白噪声序列是平稳时间序列。

C. 平稳时间序列的特征表现为在整体上或局部上有明显的上升或下降的趋势。

D. 如果时间序列的一阶矩、二阶矩存在，而且对任意时刻t满足均值为常数，协方差为时间间隔的函数，则称该序列为严平稳时间序列。

答案：关注公众号【飞鸟搜题】查看答案

2. 下列关于KNN算法说法正确的是（）。

A. 随着k值的增加，模型的复杂度增大

B. 在实际应用中，一般采用交叉验证的方法来估计预测误差，找出使得估计的预测误差最小的k。

C. 最近邻分类每个样本都可以用它最接近的k个邻居来代表

D. 近邻选得少，模型则比较稳健。

答案：关注公众号【飞鸟搜题】查看答案

3. 根据已知或假定总体是否服从一定的分布（如多元正态分布），可以将判别分析的判别规则分为（）。

A. 两组判别分析

B. 参数判别规则

C. 非参数判别规则

D. 多组判别分析

答案：关注公众号【飞鸟搜题】查看答案

4. 下列关于AUC的说法正确的是（）。

A. AUC被定义为ROC曲线下的面积，也就是ROC曲线的积分

B. 通常取值在0.5~1

C. 随机挑选一个正样本以及一个负样本，分类器判定正样本的值高于负样本的概率就是AUC值

D. AUC值（面积）越小的分类器，性能越好

答案：关注公众号【飞鸟搜题】查看答案

5. 期望预测误差主要包括（）。

A. 模型假设失误带来的误差

B. 采用某种方法估计最优值时，估计值的平均可能偏离了真实值

C. 估计值自身由于数据的随机性产生一个波动部分

D. 一些主观人为因素

答案：关注公众号【飞鸟搜题】查看答案

6. 下列关于抽样的说法正确的是（）。

A. 抽样有多种方法，如有放回抽样、无放回抽样等

B. 无放回抽样则将抽出来的个体从抽样对象中去除

C. 有放回抽样有可能对同一个个体抽中了多次

D. 无放回抽样会有重复的个体

答案：关注公众号【飞鸟搜题】查看答案

7. 下面关于Poisson回归模型说法不正确的是（）

A. 又称为计数模型

B. 假设观测因变量数据服从Poisson分布

C. 使用极大似然法进行参数估计

D. 模型不需要进行检验

答案：关注公众号【飞鸟搜题】查看答案

8. 相关分析根据相关关系表现形式的不同可以分为（）。

A. 非线性相关分析

B. 偏相关分析

C. 非参数相关分析

D. 线性相关分析

答案：关注公众号【飞鸟搜题】查看答案

9. DBSCAN算法的优点是（）。

A. 当数据量增大时，要求较大的内存支持，I/Q消耗也很大。

B. 能够有效处理噪声点和发现任意形状的空间聚类。

C. DBSCAN算法聚类速度快。

D. 当空间聚类的密度不均匀、聚类间距相差很大时聚类质量较差。

答案：关注公众号【飞鸟搜题】查看答案

10. 下列操作属于数据分析和挖掘的一般流程的是（）。

A. 数据预处理

B. 探索性分析

C. 从平台或渠道获取数据

D. 将模型结果进行可视化

答案：关注公众号【飞鸟搜题】查看答案

三、判断题

1. 数据是随时间变化而变化，反映了事物、现象在时间上的发展变动情况，称为时间序列数据。

A. √

B. ×

答案：关注公众号【飞鸟搜题】查看答案

2. Python是一种面向对象的解释型高级编程语言，其结构简单，易于学习和维护，但可移植性和可扩展性较差。

A. √

B. ×

答案：关注公众号【飞鸟搜题】查看答案

3. 简单相关分析有时不能够真实地反映现象之间的关系

A. √

B. ×

答案：关注公众号【飞鸟搜题】查看答案

4. 只有通过检验的模型才能够充分描述变量之间的关系，建立的模型才有现实意义。

A. √

B. ×

答案：关注公众号【飞鸟搜题】查看答案

5. 在回归学习中常用的损失函数是平方损失函数。

A. √

B. ×

答案：关注公众号【飞鸟搜题】查看答案

6. 有监督学习模型的目的是寻找一个可以很好地描述自变量X与因变量Y之间关系的函数f。

A. √

B. ×

答案：关注公众号【飞鸟搜题】查看答案

7. 聚类分析中，个体与个体之间的距离越近越有可能是一类。

A. √

B. ×

答案：关注公众号【飞鸟搜题】查看答案

8. 缺失值是不受标准化过程影响的。

A. √

B. ×

答案：关注公众号【飞鸟搜题】查看答案

9. 分类和回归的根本区别在于，分类的解释变量Y是一个一维的定性变量或离散变量。

A. √

B. ×

答案：关注公众号【飞鸟搜题】查看答案

10. 随机森林算法建立决策树过程中，对于行采样，采样无放回的方式。

A. √

B. ×

答案：关注公众号【飞鸟搜题】查看答案

四、配伍题

1. 请为名词选择①-④表示其含义的描述，将配好的A-D填写到括号中。

A. ①真正类 ->

B. 如果一个点属于负类并且被预测到正类中

C. 如果一个点属于正类并且被预测到正类中

D. ②假正类 ->

E. 如果一个点属于正类并且被预测到负类中

F. ③真负类 ->

G. 如果一个点属于负类并且被预测到负类中

H. ④假负类 ->

答案：关注公众号【飞鸟搜题】查看答案

关注公众号【飞鸟搜题】，回复【试题】获取试卷答案

2024秋最新国家开放大学国开电大机考期末大数据分析与挖掘技术试卷包机考期末试卷参考试题

来源：百年教育职业培训中心 更新时间：2024-12-13 05:37:36

来源：百年教育职业培训中心　更新时间：2024-12-13 05:37:36