国开搜题

23春大数据分析与挖掘技术试卷包-新-02

来源：批量Word文档　更新时间：2026-05-18 07:20:40

23春大数据分析与挖掘技术试卷包-新-02 23春大数据分析与挖掘技术试卷包-新-02 关注公众号【飞鸟搜题】，回复【试题】获取试卷答案文档说明:本人针对该科精心汇总了历年题库及答案，形成一个完整的题库，并且每年都在更新。该题库对考生的复...

23春大数据分析与挖掘技术试卷包-新-02

关注公众号【飞鸟搜题】，回复【试题】获取试卷答案

文档说明:本人针对该科精心汇总了历年题库及答案，形成一个完整的题库，并且每年都在更新。该题库对考生的复习、作业和考试起着非常重要的作用，会给您节省大量的时间。做考题时，利用本文档中的查找工具，把考题中的关键字输到查找工具的查找内容框内，就可迅速查找到该题答案。本文库还有期末考核试题、其他网核及教学考一体化、一网一平台复习试题与答案，敬请查看。

课程题目试题是随机的，请按题目关键词查找（或按Ctrl+F输入题目中的关键词，尽量不要输入整个题目，不要复制空格，连续的几个字就行）

本文由【飞鸟搜题】微信公众号提供，禁止复制盗取，违者必究

一、单选题

1. 在决策树中，节点熵越大，那么（）

节点的不纯度越低

节点的不纯度越高

节点越靠近根节点

节点越靠近叶节点

答案：B- 关注公众号【飞鸟搜题】查看答案

2. 关于混淆矩阵，如果一个点属于负类并且被预测到负类中，称为：（）

真正类；

假正类；

真负类；

假负类。

答案：C- 关注公众号【飞鸟搜题】查看答案

3. 下列关于AUC的说法不正确的是（）。

AUC被定义为ROC曲线下的面积，也就是ROC曲线的积分

通常取值在0.5~1

随机挑选一个正样本以及一个负样本，分类器判定正样本的值高于负样本的概率就是AUC值

AUC值（面积）越小的分类器，性能越好

答案：D- 关注公众号【飞鸟搜题】查看答案

4. 下列不属于回归模型评价指标的是（）。

平均绝对误差

平均相对误差

平均平方误差

决定系数

答案：B- 关注公众号【飞鸟搜题】查看答案

5. 在回归学习中常用的损失函数是（）。

0-1损失函数

平方损失函数

指数损失函数

负二项损失函数

答案：关注公众号【飞鸟搜题】查看答案

6. 下列关于性能评估的指标说法错误的是（）。

对于预测任务的数据挖掘，性能评估的指标包括平均绝对误差和均方根误差等

对于分类任务的数据挖掘，评价指标一般可通过一个混淆矩阵计算得到

数据挖掘方法预测性能的评估是数据挖掘中的一个重要内容

ROC曲线不是常用的评价方法

答案：关注公众号【飞鸟搜题】查看答案

7. 下列关于类间距确定方法说法正确的是（）。

离差平方和法要求样本间距离必须采用欧氏距离；

重心法没有考虑每一类中所包含的样本点数目；

类平均法没有充分利用各个样本的信息；

使用离差平方和作为类间距离时，如果聚类聚得恰当，类内样本点之间的离差平方和应该较大，类间离差平方和应该较小。

答案：关注公众号【飞鸟搜题】查看答案

8. 在聚类分析中，如果新类与其他类别之间存在多个点与点之间的距离，通过用不同类的样本点两两之间的平均距离作为类间距离的方法为（）。

中间距离法

离差平方和法

重心法

类平均法

答案：关注公众号【飞鸟搜题】查看答案

9. 要通过某超市历史1年的客流量数据预测未来的客流量，通常采用( )

分类

时间序列模型

关联分析

聚类分析

答案：关注公众号【飞鸟搜题】查看答案

10. 如果销售额数据与时间有密切相关的联系，即销售额数值随时间的推进而不断上升，则称该序列为（）。

绝对数时间序列

宽平稳时间序列

非平稳时间序列

严平稳时间序列

答案：关注公众号【飞鸟搜题】查看答案

11. 下列关于相关系数r的说法不正确的是（）。

r具有对称性

r的数值的大小与x和y的计量尺度无关

r能够反映两个变量之间的因果关系

r≥0时，表明两个变量之间存在正线性相关关系

答案：关注公众号【飞鸟搜题】查看答案

12. 按相关因素（变量）之间的相关方向，可以将相关关系分为（）。

单相关和复相关

正相关和负相关

线性相关和非线性相关

偏相关和参数相关

答案：关注公众号【飞鸟搜题】查看答案

13. 按相关因素（变量）的多少，可以将相关关系分为（）。

单相关和复相关

正相关和负相关

线性相关和非线性相关

偏相关和参数相关

答案：关注公众号【飞鸟搜题】查看答案

14. 下列关于Python的说法错误的是（）。

Python是一种面向对象的解释型高级编程语言

可移植性和可扩展性不强

结构简单，语法和代码定义清晰明确

易于学习和维护

答案：关注公众号【飞鸟搜题】查看答案

15. 下列关于Python中的注释说法正确的是（）。

Python中可以使用“#”作为注释，“#”右边的一切内容均不会被执行

Python中可以使用“#”进行一行或多行注释

Python中注释下的一切内容会被执行但不显示

Python中只有使用“#”这一种注释方法

答案：关注公众号【飞鸟搜题】查看答案

16. 对于某个时间、空间等范围内事情发生次数的计数数据，一般都认为其近似服从（）。

卡方分布

韦布尔分布

标准正态分布

泊松分布

答案：关注公众号【飞鸟搜题】查看答案

17. 对于分析多个属性的离散因变量与自变量的关系的模型是（）。

线性概率模型

计数模型

二元选择模型

多重选择模型

答案：关注公众号【飞鸟搜题】查看答案

18. 假定隐变量的随机误差项服从标准正态分布的模型是（）。

线性概率模型

二元Probit模型

二元Logit模型

计数模型

答案：关注公众号【飞鸟搜题】查看答案

19. 数据预处理是数据分析工作的（）。

实施阶段

准备阶段

总结阶段

收尾阶段

答案：关注公众号【飞鸟搜题】查看答案

20. 下列关于抽样的说法正确的是（）。

抽样有多种方法，如有放回抽样、无放回抽样等

有放回抽样则将抽出来的个体从抽样对象中去除

无放回抽样有可能对同一个个体抽中了多次

无放回抽样会有重复的个体

答案：关注公众号【飞鸟搜题】查看答案

二、多选题

1. 下列关于支持度和置信度的说法不正确的是（）。

置信度确定规则可以用于给定数据集的频繁程度

支持度确定规则可以用于给定数据集的频繁程度

置信度确定Y在包含X的事务中出现的频繁程度

支持度确定Y在包含X的事务中出现的频繁程度

答案：关注公众号【飞鸟搜题】查看答案

2. 根据已知或假定总体是否服从一定的分布（如多元正态分布），可以将判别分析的判别规则分为（）。

两组判别分析

参数判别规则

非参数判别规则

多组判别分析

答案：关注公众号【飞鸟搜题】查看答案

3. 下面关于决策树的剪枝操作理解不正确的是（）。

对决策树进行剪枝的目的是提高模型的预测误差

对决策树进行剪枝是为了提高模型的解释能力

只能在生成决策树后再剪枝

剪枝就是从下往上的剪掉一些节点

答案：关注公众号【飞鸟搜题】查看答案

4. 下面白噪声序列说法正确的是（）。

具有零均值

具有同方差性

协方差为零

不是平稳时间序列

答案：关注公众号【飞鸟搜题】查看答案

5. 一般数据的预处理，主要包括（）。

异常点检测

噪声数据检测

缺失值的处理

重复数据的处理

答案：关注公众号【飞鸟搜题】查看答案

6. 依据离散因变量选项的含义和次序的不同，可以将多重选择模型分为（）.

ordinal probit模型

有序模型

无序模型

ordinal logit模型

答案：关注公众号【飞鸟搜题】查看答案

7. 下列关于Python的说法正确的是（）。

Python是一种面向对象的解释型高级编程语言

可移植性和可扩展性不强

结构简单，语法和代码定义清晰明确

易于学习和维护

答案：关注公众号【飞鸟搜题】查看答案

8. 下列属于常用的损失函数的是（）。

0-1损失函数

平方损失函数

指数损失函数

负二项损失函数

答案：关注公众号【飞鸟搜题】查看答案

9. 下列属于聚类模型评价的内部指标的是（）。

DB指数

Jaccard系数

Dunn指数

Rand指数

答案：关注公众号【飞鸟搜题】查看答案

10. 聚类分析中，关于内部评价指标说法正确的是（）。

DBI指数越大，说明聚类结果越好

DBI指数越小，说明聚类结果越好

DI指数越大，说明聚类结果越好

DI指数越小，说明聚类结果越好

答案：关注公众号【飞鸟搜题】查看答案

三、判断题

1. DBSCAN算法中，密度可达是直接密度可达的传递闭包，并且这种关系是非对称的。

√

答案：关注公众号【飞鸟搜题】查看答案

2. 数据是随时间变化而变化，反映了事物、现象在时间上的发展变动情况，称为时间序列数据。

√

答案：关注公众号【飞鸟搜题】查看答案

3. 有监督学习模型的目的是寻找一个可以很好地描述自变量X与因变量Y之间关系的函数f。

√

答案：关注公众号【飞鸟搜题】查看答案

4. DB指数刻画的是一个平均距离，该指数越大，说明聚类越好。

√

答案：关注公众号【飞鸟搜题】查看答案

5. Python是一种面向对象的解释型高级编程语言，其结构简单，易于学习和维护，但可移植性和可扩展性较差。

√

答案：关注公众号【飞鸟搜题】查看答案

6. 决策树中，我们需要比较父节点与子节点的不纯度，他们的差越小，测试条件的效果就越好。

√

答案：关注公众号【飞鸟搜题】查看答案

7. 决策树中，我们需要比较父节点与子节点的不纯度，他们的差越大，测试条件的效果就越好。

√

答案：关注公众号【飞鸟搜题】查看答案

8. 主成分是原始变量的线性组合，它们相互正交（垂直），捕获了数据差异最大的方向。

√

答案：关注公众号【飞鸟搜题】查看答案

9. 二元选择模型的的参数估计结果可以理解为自变量变动对因变量的边际影响，应当理解为自变量的变动。

√

答案：关注公众号【飞鸟搜题】查看答案

10. 置信度确定Y在包含X的事务中出现的频繁程度。

√

答案：关注公众号【飞鸟搜题】查看答案

四、配伍题

1. 请为名词选择①-④表示其含义的描述，将配好的A-D填写到括号中。设dij表示第i个样本与第j个样本之间的距离。

①绝对距离 ->

dij∞=max1≤k≤p⁡xik-xjk

②切比雪夫距离 ->

dij1=∑k=1pxik-xjk

dij=Xi-Xj'∑-1Xi-Xj

③马氏距离 ->

④欧氏距离 ->

dij2=∑k=1pxik-xjk21/2

答案：关注公众号【飞鸟搜题】查看答案

关注公众号【飞鸟搜题】，回复【试题】获取试卷答案

23春大数据分析与挖掘技术试卷包-新-02

来源：批量Word文档 更新时间：2026-05-18 07:20:40

来源：批量Word文档　更新时间：2026-05-18 07:20:40