国开搜题

2024秋最新国家开放大学国开电大机考期末春大数据分析与挖掘技术试卷包机考期末试卷参考试题

来源：百年教育职业培训中心　更新时间：2024-12-12 05:40:27

23春大数据分析与挖掘技术试卷包-03关注公众号【飞鸟搜题】，回复【试题】获取试卷答案文档说明:本人针对该科精心汇总了历年题库及答案，形成一个完整的题库，并且每年都在更新。该题库对考生的复习、作业和考

23春大数据分析与挖掘技术试卷包-03

关注公众号【飞鸟搜题】，回复【试题】获取试卷答案

文档说明:本人针对该科精心汇总了历年题库及答案，形成一个完整的题库，并且每年都在更新。该题库对考生的复习、作业和考试起着非常重要的作用，会给您节省大量的时间。做考题时，利用本文档中的查找工具，把考题中的关键字输到查找工具的查找内容框内，就可迅速查找到该题答案。本文库还有期末考核试题、其他网核及教学考一体化、一网一平台复习试题与答案，敬请查看。

课程题目试题是随机的，请按题目关键词查找（或按Ctrl+F输入题目中的关键词，尽量不要输入整个题目，不要复制空格，连续的几个字就行）

本文由【飞鸟搜题】微信公众号提供，禁止复制盗取，违者必究

一、单选题

1. 下列操作不属于数据分析和挖掘的一般流程的是（）。

A. 数据预处理

B. 探索性分析

C. 从平台或渠道获取数据

D. 将模型结果进行可视化

答案：C
- 关注公众号【飞鸟搜题】查看答案

2. 下列关于Python中的注释说法正确的是（）。

A. Python中可以使用“#”作为注释，“#”右边的一切内容均不会被执行

B. Python中可以使用“#”进行一行或多行注释

C. Python中注释下的一切内容会被执行但不显示

D. Python中只有使用“#”这一种注释方法

答案：A
- 关注公众号【飞鸟搜题】查看答案

3. 下列代码可以将数据集data中的重复个体检测出的是（）。

A. data.repeat()

B. data.repetition()

C. data.duplicated()

D. data.duplication()

答案：C
- 关注公众号【飞鸟搜题】查看答案

4. 下面哪项代码是对数据data进行标准化的过程（）。

A. Z = (data - data.mean()) / data.std()

B. Z = (data.mean() - data) / data.std()

C. Z = (data - data.std()) / data.mean()

D. Z = (data.std() - data) / data.mean()

答案：A
- 关注公众号【飞鸟搜题】查看答案

5. 从下面的时序图不能得到的结论是（）

A. 该序列具有零均值

B. 该序列均值不随时间变化而变化

C. 这是一个平稳时间序列

D. 这是一个非平稳时间序列

答案：关注公众号【飞鸟搜题】查看答案

6. 下列不属于要研究平稳时间序列的原因为（）

A. 在平稳的保证情况下，对历史时序数据进行分析的参数估计结果也比较稳定；

B. 平稳时间序列可以直接用于对未来时序数据的预测；

C. 平稳时间序列存在“伪回归”的情况；

D. 非平稳时间序列在分析时，本来没有什么关系的变量之间可能出现“伪回归”的情况。

答案：关注公众号【飞鸟搜题】查看答案

7. 下列关于决定系数的说法不正确的是（）。

A. 越接近于0说明模型拟合得越好

B. 决定系数是指模型解释了的数据波动的比例

C. 取值区间为[0,1]

D. 越接近于1说明模型拟合得越好

答案：关注公众号【飞鸟搜题】查看答案

8. 下列关于偏差和方差的说法不正确的是（）。

A. 偏差和方差受模型的复杂度影响

B. 模型越复杂，偏差越小，方差越大

C. 模型越复杂，偏差越大，方差越小

D. 模型越简单，偏差越大，而方差越小

答案：关注公众号【飞鸟搜题】查看答案

9. 下列关于期望预测误差的说法错误的是（）。

A. 期望预测误差实际上是真实值与预测值在某种损失函数下的差值

B. 期望预测误差实际上是真实值与预测值在某种损失函数下的平均值

C. 通常我们使用期望预测误差作为寻优的目标函数

D. 有监督学习模型的目的是寻找一个可以很好地描述自变量X与因变量Y之间关系的函数f

答案：关注公众号【飞鸟搜题】查看答案

10. 下列不属于回归模型评价指标的是（）。

A. 平均绝对误差

B. 平均相对误差

C. 平均平方误差

D. 决定系数

答案：关注公众号【飞鸟搜题】查看答案

11. 下列关于类间距确定方法说法错误的是（）。

A. 离差平方和法要求样本间距离可以采用欧式距离、马氏距离等；

B. 重心法考虑了每一类中所包含的样本点数目；

C. 类平均法充分利用各个样本的信息；

D. 使用离差平方和作为类间距离时，如果聚类聚得恰当，类内样本点之间的离差平方和应该较小，类间离差平方和应该较大。

答案：关注公众号【飞鸟搜题】查看答案

12. 快速聚类中，要确定数据到底聚成几个类合适，我们可以设定K从1到K的变化，计算相应的（），选择其最（）的类别个数。

A. SSE；大

B. SSE；小

C. SSR；大

D. SSR；小

答案：关注公众号【飞鸟搜题】查看答案

13. 分析自变量对计数因变量的影响时所建立的模型为（）。

A. 线性回归模型

B. Logistic回归模型

C. 分位数回归

D. 计数模型

答案：关注公众号【飞鸟搜题】查看答案

14. P-P图或Q-Q图形在残差符合正态假定条件下，散点图看起来应该像是（）。

A. 一条水平直线

B. 一条截距为0、斜率为-1的直线

C. 一条截距为0、斜率为1的直线

D. 一条垂直直线

答案：关注公众号【飞鸟搜题】查看答案

15. 假定隐变量的随机误差项服从标准正态分布的模型是（）。

A. 线性概率模型

B. 二元Probit模型

C. 二元Logit模型

D. 计数模型

答案：关注公众号【飞鸟搜题】查看答案

16. 下列关于相关关系的说法不正确的是（）。

A. 相关关系主要体现为变量之间的相互依存关系

B. 主要考察变量之间的相互影响，这种影响不存在方向性

C. 相关关系是确定性的

D. 相关关系是不确定的

答案：关注公众号【飞鸟搜题】查看答案

17. 下列关于相关系数r的说法不正确的是（）。

A. 当r=0时，表现为完全不相关

B. 当r=0时，表现为无线性相关

C. 当r取值为-1时，表示为完全负线性相关

D. 当r取值为1时，表示为完全正线性相关

答案：关注公众号【飞鸟搜题】查看答案

18. 按相关因素（变量）之间的关系形态不同，可以将相关关系分为（）。

A. 单相关和复相关

B. 正相关和负相关

C. 线性相关和非线性相关

D. 偏相关和参数相关

答案：关注公众号【飞鸟搜题】查看答案

19. 对于解决小样本、非线性及高维模式识别问题，（）表现出许多特有的优势。

A. 支持向量机

B. 最近邻分类

C. 随机森林

D. 线性判别

答案：关注公众号【飞鸟搜题】查看答案

20. 每个样本都可以用它最接近的k个邻居来代表的算法是：（）

A. 支持向量机

B. 决策树

C. 最近邻分类

D. 线性判别

答案：关注公众号【飞鸟搜题】查看答案

二、多选题

1. 要研究平稳时间序列的原因为（）

A. 在平稳的保证情况下，对历史时序数据进行分析的参数估计结果也比较稳定；

B. 平稳时间序列可以直接用于对未来时序数据的预测；

C. 平稳时间序列存在“伪回归”的情况；

D. 非平稳时间序列在分析时，本来没有什么关系的变量之间可能出现“伪回归”的情况。

答案：关注公众号【飞鸟搜题】查看答案

2. 随机森林的优势是（）。

A. 能够处理高维度数据，并且不用做特征选择；

B. 在训练过程中，能够检测到特征间的交互作用；

C. 训练速度快；

D. 容易做成并行化方法。

答案：关注公众号【飞鸟搜题】查看答案

3. 常用的核函数有（）。

A. 线性核

B. 高斯核

C. 神经网络核

D. 多项式核

答案：关注公众号【飞鸟搜题】查看答案

4. 下列关于偏差和方差的说法正确的是（）。

A. 偏差和方差受模型的复杂度影响

B. 模型越复杂，偏差越小，方差越大

C. 模型越复杂，偏差越大，方差越小

D. 模型越简单，偏差越大，方差越小

答案：关注公众号【飞鸟搜题】查看答案

5. 下列关于性能评估的指标说法正确的是（）。

A. 对于预测任务的数据挖掘，性能评估的指标包括平均绝对误差和均方根误差等

B. 对于分类任务的数据挖掘，评价指标一般可通过一个混淆矩阵计算得到

C. 数据挖掘方法预测性能的评估是数据挖掘中的一个重要内容

D. ROC曲线不是常用的评价方法

答案：关注公众号【飞鸟搜题】查看答案

6. 缺失值的产生，有可能是因为（）。

A. 数据本身为异常值

B. 某些原因没有收集到信息

C. 对于这些个体来说这些属性是不可用的

D. 数据重复出现

答案：关注公众号【飞鸟搜题】查看答案

7. 下面关于Poisson回归模型说法不正确的是（）

A. 又称为计数模型

B. 假设观测因变量数据服从Poisson分布

C. 使用极大似然法进行参数估计

D. 模型不需要进行检验

答案：关注公众号【飞鸟搜题】查看答案

8. 下列不属于相关分析根据相关关系表现形式的不同划分的是（）。

A. 非线性相关分析

B. 偏相关分析

C. 非参数相关分析

D. 线性相关分析

答案：关注公众号【飞鸟搜题】查看答案

9. 下面哪个原则是聚类过程中的类需要遵从的原则（）。

A. 同质性原则

B. 互斥性原则

C. 完备性原则

D. 充分性原则

答案：关注公众号【飞鸟搜题】查看答案

10. 下列属于Python的第三方库的是（）。

A. Statsmodels

B. Matplotlib

C. Scipy

D. Scikit-learn

答案：关注公众号【飞鸟搜题】查看答案

三、判断题

1. 如果时间序列的一阶矩、二阶矩存在，而且对任意时刻t满足均值为常数，协方差为时间间隔的函数，则称该序列为宽平稳时间序列。

A. √

B. ×

答案：关注公众号【飞鸟搜题】查看答案

2. Python是一种面向对象的解释型高级编程语言，其结构简单，易于学习和维护，但可移植性和可扩展性较差。

A. √

B. ×

答案：关注公众号【飞鸟搜题】查看答案

3. 相关分析根据其分析方法和处理对象不同，可以分为线性相关分析和非线性相关分析。

A. √

B. ×

答案：关注公众号【飞鸟搜题】查看答案

4. 对于Poisson回归模型，可以使用极大似然估计进行参数估计。

A. √

B. ×

答案：关注公众号【飞鸟搜题】查看答案

5. 通过样本估计期望预测误差一般有重复抽样和交叉验证两种方式。

A. √

B. ×

答案：关注公众号【飞鸟搜题】查看答案

6. Dunn指数刻画了所有类两两之间的最短距离与最大类的“直径”之比，该指数越大，说明类与类之间分得越开。

A. √

B. ×

答案：关注公众号【飞鸟搜题】查看答案

7. 多元统计分析中的聚类分析方法既可以对样本进行分类，记为Q型分类，也可以对反映事物特征的指标或变量进行分类，记为R型分类。

A. √

B. ×

答案：关注公众号【飞鸟搜题】查看答案

8. 除了填补缺失值，另一个处理缺失值的常用方法就是删除缺失值。这可以通过函数dropna()作用于数据框来实现。

A. √

B. ×

答案：关注公众号【飞鸟搜题】查看答案

9. 判别分析的核心是建立判别法则。

A. √

B. ×

答案：关注公众号【飞鸟搜题】查看答案

10. 决策树中，我们需要比较父节点与子节点的不纯度，他们的差越小，测试条件的效果就越好。

A. √

B. ×

答案：关注公众号【飞鸟搜题】查看答案

四、配伍题

1. 请为名词选择①-④表示其含义的描述，将配好的A-D填写到括号中。设dij表示第i个样本与第j个样本之间的距离。

A. ①绝对距离 ->

B. dij∞=max1≤k≤p⁡xik-xjk

C. ②切比雪夫距离 ->

D. dij1=∑k=1pxik-xjk

E. dij=Xi-Xj'∑-1Xi-Xj

F. ③马氏距离 ->

G. ④欧氏距离 ->

H. dij2=∑k=1pxik-xjk21/2

答案：关注公众号【飞鸟搜题】查看答案

关注公众号【飞鸟搜题】，回复【试题】获取试卷答案

2024秋最新国家开放大学国开电大机考期末春大数据分析与挖掘技术试卷包机考期末试卷参考试题

来源：百年教育职业培训中心 更新时间：2024-12-12 05:40:27

来源：百年教育职业培训中心　更新时间：2024-12-12 05:40:27