题库试卷

【国开搜题】国家开放大学一网一平台24春大数据分析与挖掘技术试卷包新01期末考试押题试卷与答案

来源：百年教育职业培训中心　更新时间：2024-04-22 00:31:54

23春大数据分析与挖掘技术试卷包-新-01关注公众号【国开搜题】，回复【试题】获取试题答案一、单选题1.决策树的cp值越小，那么（）A.模型越复杂B.训练误差越小C.预测误差越小D.模型更简单答案：C

23春大数据分析与挖掘技术试卷包-新-01

关注公众号【国开搜题】，回复【试题】获取试题答案

一、单选题

1. 决策树的cp值越小，那么（）

A. 模型越复杂

B. 训练误差越小

C. 预测误差越小

D. 模型更简单

答案：C
- 关注公众号【国开搜题】，对话框内发送试题，获得答案。

2. 如图分别为k=1，k=10，k=30时，训练集数据与测试集数据的分布，说法正确的是（） k=1 k=10 k=30渝粤教育

A. 近邻选得越多，模型越容易受敏感点的影响。

B. 近邻选得越少，模型越容易受敏感点的影响。

C. 近邻选得越少，模型越稳健，但是不容易发现一些敏感部分。

D. 近邻选得越少，模型越稳健，越容易发现一些敏感部分。

答案：B
- 关注公众号【国开搜题】，对话框内发送试题，获得答案。

3. 下列关于性能评估的指标说法错误的是（）。

A. 对于预测任务的数据挖掘，性能评估的指标包括平均绝对误差和均方根误差等

B. 对于分类任务的数据挖掘，评价指标一般可通过一个混淆矩阵计算得到

C. 数据挖掘方法预测性能的评估是数据挖掘中的一个重要内容国开一网一平台

D. ROC曲线不是常用的评价方法

答案：D
- 关注公众号【国开搜题】，对话框内发送试题，获得答案。

4. 下列不属于回归模型评价指标的是（）。

A. 平均绝对误差

B. 平均相对误差

C. 平均平方误差

D. 决定系数

答案：B
- 关注公众号【国开搜题】，对话框内发送试题，获得答案。

5. 下列不属于期望预测误差的是（）。

A. 模型假设失误带来的误差

B. 采用某种方法估计最优值时，估计值的平均可能偏离了真实值

C. 估计值自身由于数据的随机性产生一个波动部分

D. 一些主观人为因素

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

6. 在回归学习中常用的损失函数是（）。

A. 0-1损失函数

B. 平方损失函数

C. 指数损失函数国开搜题

D. 负二项损失函数渝粤题库

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

7. 下述谱系图使用的是类平均法，横轴表示类别之间的平均距离，纵轴为具体的每个样本。如在图中距离为1.75 处画一条竖线，该直线与谱系聚类图有2个交点，即可把所有样本分为两类。与第1个交点相连的样本是（），它们形成第一类；而与第2个交点相连的样本是（），它们形成另一类。

A. turtle、komodo、salamander、frog、penguin、eel； salmon、leopard shark、whale、python、porcupine、bat、cat、human、pigeon

B. turtle、komodo、salamander、frog、penguin、eel、salmon、leopard shark； whale、python、porcupine、bat、cat、human、pigeon

C. turtle、komodo、salamander、frog、penguin、eel、salmon、leopard shark、whale、python； porcupine、bat、cat、human、pigeon

D. turtle、komodo、salamander、frog、penguin、eel、salmon、leopard shark、whale； python、porcupine、bat、cat、human、pigeon

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

8. 快速聚类中，要确定数据到底聚成几个类合适，我们可以设定K从1到K的变化，计算相应的（），选择其最（）的类别个数。

A. SSE；大渝粤题库

B. SSE；小

C. SSR；大

D. SSR；小

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

9. 如果时间序列的一阶矩、二阶矩存在，而且对任意时刻t满足均值为常数，协方差为时间间隔的函数，则称该序列为（）。渝粤教育

A. 绝对数时间序列

B. 宽平稳时间序列国开一网一平台

C. 非平稳时间序列

D. 严平稳时间序列

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

10. 下面不能进行时间序列平稳性检验的是（）。

A. 自相关系数

B. 自相关图检验

C. 单位根检验

D. DW检验

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

11. 变量或数据之间的两种主要关系的是（）。

A. 因果关系和相关关系

B. 因果关系和依存关系

C. 函数关系和相关关系

D. 函数关系和依存关系

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

12. 下列属于变量或数据之间的主要关系的是（）。

A. 因果关系渝粤题库

B. 函数关系

C. 依存关系

D. 以上皆是

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

13. 下列关于相关系数r的说法不正确的是（）。

A. r具有对称性

B. r的数值的大小与x和y的计量尺度无关

C. r能够反映两个变量之间的因果关系

D. r≥0时，表明两个变量之间存在正线性相关关系

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

14. 下列关于Python中的注释说法正确的是（）。

A. Python中可以使用“#”作为注释，“#”右边的一切内容均不会被执行

B. Python中可以使用“#”进行一行或多行注释

C. Python中注释下的一切内容会被执行但不显示

D. Python中只有使用“#”这一种注释方法

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

15. 下列关于Python的说法错误的是（）。

A. Python是一种面向对象的解释型高级编程语言

B. 可移植性和可扩展性不强

C. 结构简单，语法和代码定义清晰明确

D. 易于学习和维护

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

16. 非线性形式的变量关系转化为线性关系可以通过的方式是（）。

A. 变量代换或转换

B. 变量剔除

C. 变量筛选

D. 增加变量

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

17. 定性因素对因变量的影响在进行回归分析的过程中，需要进行特殊的处理是（）。

A. 把定性变量取对数再做分析

B. 把定性变量转化为虚拟变量之后再引入回归模型中进行分析

C. 把定性变量去掉

D. 无需做任何处理

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

18. 在多重选择模型中，对于无序选择模型，一般假定随机误差项是独立同分布的随机变量，且假定服从（）。

A. 卡方分布

B. 均匀分布

C. 标准正态分布

D. 韦布尔分布渝粤搜题

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

19. 下列关于函数dropna()的说法不正确的是（）。

A. 作用是删除缺失值

B. 默认是删除行

C. 默认是删除列

D. 作用于数据框来实现

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

20. 下列关于抽样的说法错误的是（）。

A. 抽样有多种方法，如有放回抽样、无放回抽样等

B. 无放回抽样则将抽出来的个体从抽样对象中去除

C. 有放回抽样有可能对同一个个体抽中了多次

D. 无放回抽样会有重复的个体

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

二、多选题

1. 常见的非参数相关系数计算方法有（）。

A. Spearman

B. Kendall's tau-b

C. Hoeffding's D

D. Pearson

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

2. 决策树算法依据数据类型的不同和树状结构的不同有不同版本的决策树，下列属于决策算法的是：（）

A. Hunt

B. ID3

C. CART

D. C4.5

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

3. 下列属于CART算法的优点的是（）。

A. CART对于自变量和因变量不做任何形式的分布假定；

B. CART的结果受自变量的单调变换的影响;

C. CART分析所产生的树的结构很容易被任何领域的人理解;

D. CART能探索和揭示数据中的交互作用。

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

4. 下面白噪声序列说法正确的是（）。

A. 具有零均值

B. 具有同方差性

C. 协方差为零

D. 不是平稳时间序列

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

5. 下列关于函数dropna()的说法正确的是（）。

A. 作用是删除缺失值

B. 默认是删除行

C. 默认是删除列

D. 作用于数据框来实现

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

6. 依据离散因变量选项的含义和次序的不同，可以将多重选择模型分为（）.

A. ordinal probit模型

B. 有序模型

C. 无序模型

D. ordinal logit模型

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

7. 下列属于Python的第三方库的是（）。

A. Statsmodels

B. Matplotlib

C. Scipy

D. Scikit-learn

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

8. 下列关于期望预测误差的说法正确的是（）。

A. 期望预测误差实际上是真实值与预测值在某种损失函数下的差值

B. 期望预测误差实际上是真实值与预测值在某种损失函数下的平均值

C. 通常我们使用期望预测误差作为寻优的目标函数

D. 有监督学习模型的目的是寻找一个可以很好地描述自变量X与因变量Y之间关系的函数f

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

9. 下列不属于通过样本估计期望预测误差的方式的是（）。

A. 不重复抽样

B. 重复抽样

C. 非交叉验证

D. 交叉验证

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

10. 下列关于类间距确定方法说法正确的是（）。

A. 离差平方和法要求样本间距离必须采用欧氏距离；

B. 重心法没有考虑每一类中所包含的样本点数目；

C. 类平均法没有充分利用各个样本的信息；

D. 使用离差平方和作为类间距离时，如果聚类聚得恰当，类内样本点之间的离差平方和应该较小，类间离差平方和应该较大。

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

三、判断题

1. DBSCAN聚类可以用于数据分布均匀，呈块状分布，并且聚集形态是固定形状的情况。渝粤题库，我们的目标是要做全覆盖、全正确的答案搜索服务。

A. √

B. ×

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

2. 时间序列数据的分析主要研究目的是总结过去预测未来。

A. √

B. ×渝粤题库

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

3. 决定系数是指模型解释了的数据波动的比例，取值区间为[0,1]，越接近于1说明模型拟合得越好。

A. √国开一网一平台

B. ×

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

4. 通过样本估计期望预测误差只有重复抽样这一种方式。

A. √

B. ×

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

5. Python是一种面向对象的解释型高级编程语言，其结构简单，易于学习和维护，但可移植性和可扩展性较差。

A. √

B. ×

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

6. 非线性支持向量机通过引进核函数解决线性不可分问题。

A. √

B. ×

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

7. CART的结果受自变量的单调变换的影响。

A. √

B. ×

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

8. 设定虚拟变量时，虚拟变量的值通常用“0”或“1”来表示。

A. √

B. ×

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

9. 二元选择模型的因变量中的“0”和“1”只是对应属性的标注或符号，不具备任何数值上的意义，不直接进行数学运算。

A. √国开一网一平台

B. ×

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

10. 函数关系是不确定的，往往将发生变动的变量称为“自变量”，将受自变量变动影响而发生变动的变量称为“因变量”。

A. √国开一网一平台

B. ×

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

四、配伍题渝粤题库，我们的目标是要做全覆盖、全正确的答案搜索服务。

1. 请为名词选择①-④表示其含义的描述，将配好的A-D填写到括号中。

A. ①真正类 ->

B. 如果一个点属于负类并且被预测到正类中

C. 如果一个点属于正类并且被预测到正类中

D. ②假正类 ->

E. 如果一个点属于正类并且被预测到负类中

F. ③真负类 ->

G. 如果一个点属于负类并且被预测到负类中

H. ④假负类 ->

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

关注公众号【国开搜题】，回复【试题】获取试题答案

【国开搜题】国家开放大学 一网一平台24春大数据分析与挖掘技术试卷包新01期末考试押题试卷与答案

来源：百年教育职业培训中心 更新时间：2024-04-22 00:31:54

【国开搜题】国家开放大学一网一平台24春大数据分析与挖掘技术试卷包新01期末考试押题试卷与答案

来源：百年教育职业培训中心　更新时间：2024-04-22 00:31:54