国开搜题

2024秋最新国家开放大学国开电大机考期末春大数据分析与挖掘技术试卷包8机考期末试卷参考试题

来源：百年教育职业培训中心　更新时间：2024-12-13 05:36:36

23春大数据分析与挖掘技术试卷包-08关注公众号【飞鸟搜题】，回复【试题】获取试卷答案文档说明:本人针对该科精心汇总了历年题库及答案，形成一个完整的题库，并且每年都在更新。该题库对考生的复习、作业和考

23春大数据分析与挖掘技术试卷包-08

关注公众号【飞鸟搜题】，回复【试题】获取试卷答案

文档说明:本人针对该科精心汇总了历年题库及答案，形成一个完整的题库，并且每年都在更新。该题库对考生的复习、作业和考试起着非常重要的作用，会给您节省大量的时间。做考题时，利用本文档中的查找工具，把考题中的关键字输到查找工具的查找内容框内，就可迅速查找到该题答案。本文库还有期末考核试题、其他网核及教学考一体化、一网一平台复习试题与答案，敬请查看。

课程题目试题是随机的，请按题目关键词查找（或按Ctrl+F输入题目中的关键词，尽量不要输入整个题目，不要复制空格，连续的几个字就行）

本文由【飞鸟搜题】微信公众号提供，禁止复制盗取，违者必究

一、单选题

1. 下列操作不属于数据分析和挖掘的一般流程的是（）。

A. 数据预处理

B. 探索性分析

C. 从平台或渠道获取数据

D. 将模型结果进行可视化

答案：C
- 关注公众号【飞鸟搜题】查看答案

2. 下列关于Python的说法错误的是（）。

A. Python是一种面向对象的解释型高级编程语言

B. 可移植性和可扩展性不强

C. 结构简单，语法和代码定义清晰明确

D. 易于学习和维护

答案：B
- 关注公众号【飞鸟搜题】查看答案

3. 下列关于主成分分析的说法错误的是（）。

A. 主成分分析一种经典的减少分析变量的方法

B. 它将数据从原始的低维空间投影到高维空间

C. 它将数据从原始的高维空间投影到低维空间

D. 所有原始变量可通过变换的方式得到综合变量，称为主成分

答案：B
- 关注公众号【飞鸟搜题】查看答案

4. 删除缺失值的函数dropna()，默认是删除行，如果要对列进行删除，则需要添加参数（）。

A. axis=null

B. axis=-1

C. axis=0

D. axis=1

答案：D
- 关注公众号【飞鸟搜题】查看答案

5. 事物或现象在一年内随着季节更换而形成的有规律变动，称为( B )

A. 长期趋势

B. 季节变动

C. 循环波动

D. 不规则变动

答案：关注公众号【飞鸟搜题】查看答案

6. 请问下面的哪个模型是移动平均模型（）

A. Xt=0.8Xt-1+at-1-0.8at-2

B. Xt=0.8Xt-1+at

C. Xt=at-1-0.8at-2

D. Xt=Xt-1+at-1.2at-1-0.5at-2

答案：关注公众号【飞鸟搜题】查看答案

7. 下列关于偏差和方差的说法不正确的是（）。

A. 偏差和方差受模型的复杂度影响

B. 模型越复杂，偏差越小，方差越大

C. 模型越复杂，偏差越大，方差越小

D. 模型越简单，偏差越大，而方差越小

答案：关注公众号【飞鸟搜题】查看答案

8. 下列不属于聚类模型评价的外部指标的是（）。

A. DB指数

B. Jaccard系数

C. FM指数

D. Rand指数

答案：关注公众号【飞鸟搜题】查看答案

9. 下列属于聚类模型评价的内部指标的是（）。

A. DB指数

B. Jaccard系数

C. FM指数

D. Rand指数

答案：关注公众号【飞鸟搜题】查看答案

10. 下列关于AUC的说法不正确的是（）。

A. AUC被定义为ROC曲线下的面积，也就是ROC曲线的积分

B. 通常取值在0.5~1

C. 随机挑选一个正样本以及一个负样本，分类器判定正样本的值高于负样本的概率就是AUC值

D. AUC值（面积）越小的分类器，性能越好

答案：关注公众号【飞鸟搜题】查看答案

11. 多元统计分析中的聚类分析方法可以对样本进行分类，记为（）。

A. S型分类

B. H型分类

C. Q型分类

D. R型分类

答案：关注公众号【飞鸟搜题】查看答案

12. 快速聚类中，要确定数据到底聚成几个类合适，我们可以设定K从1到K的变化，计算相应的SSE，下图设定了K的取值为1，2，3，4，5，6。K选（）最为合适。

A. 1

B. 2

C. 3

D. 6

答案：关注公众号【飞鸟搜题】查看答案

13. 假定隐变量的随机误差项服从Logit分布的模型是（）。

A. 线性概率模型

B. 二元Probit模型

C. 二元Logit模型

D. 计数模型

答案：关注公众号【飞鸟搜题】查看答案

14. 对于某个时间、空间等范围内事情发生次数的计数数据，一般都认为其近似服从（）。

A. 卡方分布

B. 韦布尔分布

C. 标准正态分布

D. 泊松分布

答案：关注公众号【飞鸟搜题】查看答案

15. 离散因变量具有两个选项或两种属性，离散因变量的属性往往是对立或互斥的模型是（）

A. 线性概率模型

B. 计数模型

C. 二元选择模型

D. 多重选择模型

答案：关注公众号【飞鸟搜题】查看答案

16. 相关分析根据相关关系表现形式的不同可以分为（）。

A. 简单相关分析和复杂相关分析

B. 偏相关分析和非偏相关分析

C. 线性相关分析和非线性相关分析

D. 参数相关分析和非参数相关分析

答案：关注公众号【飞鸟搜题】查看答案

17. 相关分析根据其分析方法和处理对象不同可以分为（）。

A. 简单相关分析、偏相关分析和非参数相关分析

B. 简单相关分析、复杂相关分析和非参数相关分析

C. 线性相关分析和非线性相关分析

D. 简单相关分析和复杂相关分析

答案：关注公众号【飞鸟搜题】查看答案

18. 若关联规则为{牛奶，尿布}→{啤酒}:{牛奶，尿布，啤酒}，项集的支持度计数为2，而事务总数为5，则该项集的支持度为（）。

A. 0.4

B. 10

C. 2

D. 5

答案：关注公众号【飞鸟搜题】查看答案

19. 对每个样本，先计算判别函数得分，然后根据先验概率和判别函数得分的条件概率，计算出该样本被判为每一类的后验概率，被判入哪一类的后验概率最大，则把样本判为哪一类。该分类方法是（）

A. 聚类判别

B. 决策树

C. 贝叶斯判别

D. 线性判别

答案：关注公众号【飞鸟搜题】查看答案

20. 下列哪一个方法适用于类域的交叉或重叠较多的待分样本集（）

A. 决策树

B. 随机森林

C. KNN算法

D. 支持向量机

答案：关注公众号【飞鸟搜题】查看答案

二、多选题

1. 下面白噪声序列说法正确的是（）。

A. 具有零均值

B. 具有同方差性

C. 协方差为零

D. 不是平稳时间序列

答案：关注公众号【飞鸟搜题】查看答案

2. 下列关于KNN算法说法错误的是（）。

A. 随着k值的增加，模型的复杂度增大。

B. 在实际应用中，一般采用交叉验证的方法来估计预测误差，找出使得估计的预测误差最小的k。

C. 最近邻分类每个样本都可以用它最接近的k个邻居来代表。

D. 近邻选得少，模型则比较稳健。

答案：关注公众号【飞鸟搜题】查看答案

3. 下列关于贝叶斯判别和线性判别，说法正确的是（）

A. 贝叶斯判别考虑每个分类的观察值不同时，每类出现的机会是不同的。

B. 贝叶斯判别与距离判别的结果总是一样的。

C. 线性判别简单、直观且实用。

D. 线性判别考虑了误判所造成的损失差异。

答案：关注公众号【飞鸟搜题】查看答案

4. 下列属于聚类模型评价的内部指标的是（）。

A. DB指数

B. Jaccard系数

C. Dunn指数

D. Rand指数

答案：关注公众号【飞鸟搜题】查看答案

5. 期望预测误差主要包括（）。

A. 模型假设失误带来的误差

B. 采用某种方法估计最优值时，估计值的平均可能偏离了真实值

C. 估计值自身由于数据的随机性产生一个波动部分

D. 一些主观人为因素

答案：关注公众号【飞鸟搜题】查看答案

6. 下列关于函数duplicated()的说法不正确的是（）。

A. 函数结果会返回数据中的所有重复值

B. 函数结果会返回一个布尔数组

C. 函数结果表明每一行是否与前面行有重复

D. 函数结果会返回数据中的所有非重复值

答案：关注公众号【飞鸟搜题】查看答案

7. 下列属于二元选择模型的模型检验方法的是（）.

A. Z统计量对回归系数检验

B. LR似然比对模型的拟合优度进行χ2检验

C. AIC、BIC信息指数

D. Wald统计量对多个系数进行χ2检验

答案：关注公众号【飞鸟搜题】查看答案

8. 下列关于Apriori算法和FP-growth算法的说法不正确的是（）。

A. Apriori算法效率较低

B. Apriori算法效率较高

C. FP-growth算法效率较低

D. FP-growth算法效率较高

答案：关注公众号【飞鸟搜题】查看答案

9. 下列关于聚类方法说法错误的是（）

A. DBSCAN聚类可以用于数据分布不均匀，呈块状分布，并且聚集形态是任意形状的情况。

B. 快速聚类要事先确定聚类个数，但是运算速度很快，适合大量数据的情况。

C. 系统聚类可以给出聚类过程，但是要事先确定聚类个数。

D. 聚类分析中，快速聚类一般用于小样本情况下的样本聚类。

答案：关注公众号【飞鸟搜题】查看答案

10. 下列关于Python的说法正确的是（）。

A. Python是一种面向对象的解释型高级编程语言

B. 可移植性和可扩展性不强

C. 结构简单，语法和代码定义清晰明确

D. 易于学习和维护

答案：关注公众号【飞鸟搜题】查看答案

三、判断题

1. 单位根检验用于检验一个时间序列的平稳性。

A. √

B. ×

答案：关注公众号【飞鸟搜题】查看答案

2. Python中可以使用“#”作为注释，“#”右边的一切内容均不会被执行。

A. √

B. ×

答案：关注公众号【飞鸟搜题】查看答案

3. 关联规则的强度可以用支持度和置信度度量。

A. √

B. ×

答案：关注公众号【飞鸟搜题】查看答案

4. 如果在存在非线性关系的情况下使用线性回归拟合曲线，则会丢失数据之间的大量有用信息，甚至会得出错误的结论。

A. √

B. ×

答案：关注公众号【飞鸟搜题】查看答案

5. 在回归学习中常用的损失函数是平方损失函数。

A. √

B. ×

答案：关注公众号【飞鸟搜题】查看答案

6. 通过样本估计期望预测误差一般有重复抽样和交叉验证两种方式。

A. √

B. ×

答案：关注公众号【飞鸟搜题】查看答案

7. 聚类分析中，重心法没有考虑每一类中所包含的样本点数目。

A. √

B. ×

答案：关注公众号【飞鸟搜题】查看答案

8. 设定虚拟变量时，对于每个样本而言，同一个定性变量对应虚拟变量的值之和不超过1。

A. √

B. ×

答案：关注公众号【飞鸟搜题】查看答案

9. KNN算法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的。

A. √

B. ×

答案：关注公众号【飞鸟搜题】查看答案

10. 决策树中，ID3算法只能处理定性变量，且一个变量使用过后就不能再次使用了。

A. √

B. ×

答案：关注公众号【飞鸟搜题】查看答案

四、配伍题

1. 请为名词选择①-④表示其含义的描述，将配好的A-D填写到括号中。

A. ①真正类 ->

B. 如果一个点属于负类并且被预测到正类中

C. 如果一个点属于正类并且被预测到正类中

D. ②假正类 ->

E. 如果一个点属于正类并且被预测到负类中

F. ③真负类 ->

G. 如果一个点属于负类并且被预测到负类中

H. ④假负类 ->

答案：关注公众号【飞鸟搜题】查看答案

关注公众号【飞鸟搜题】，回复【试题】获取试卷答案

2024秋最新国家开放大学国开电大机考期末春大数据分析与挖掘技术试卷包8机考期末试卷参考试题

来源：百年教育职业培训中心 更新时间：2024-12-13 05:36:36

来源：百年教育职业培训中心　更新时间：2024-12-13 05:36:36