百年教育职业培训中心 百年教育学习服务平台
国开搜题

2024秋最新国家开放大学国开电大机考期末春大数据分析与挖掘技术试卷包新4机考期末试卷参考试题

来源: 更新时间:

23春大数据分析与挖掘技术试卷包-新-04关注公众号【飞鸟搜题】,回复【试题】获取试卷答案文档说明:本人针对该科精心汇总了历年题库及答案,形成一个完整的题库,并且每年都在更新。该题库对考生的复习、作业

23春大数据分析与挖掘技术试卷包-新-04

关注公众号【飞鸟搜题】,回复【试题】获取试卷答案

文档说明:本人针对该科精心汇总了历年题库及答案,形成一个完整的题库,并且每年都在更新。该题库对考生的复习、作业和考试起着非常重要的作用,会给您节省大量的时间。做考题时,利用本文档中的查找工具,把考题中的关键字输到查找工具的查找内容框内,就可迅速查找到该题答案。本文库还有期末考核试题、其他网核及教学考一体化、一网一平台复习试题与答案,敬请查看。

课程题目试题是随机的,请按题目关键词查找(或按Ctrl+F输入题目中的关键词,尽量不要输入整个题目,不要复制空格,连续的几个字就行)

本文由【飞鸟搜题】微信公众号提供,禁止复制盗取,违者必究

本文由【飞鸟搜题】微信公众号提供,禁止复制盗取,违者必究

本文由【飞鸟搜题】微信公众号提供,禁止复制盗取,违者必究


一 、单选题

1. 决策树算法中,将当前样本划分为两个子样本,使得生成的每个非叶节点都有两个分支的算法是( )

A. Hunt

B. ID3

C. CART

D. C4.5

答案:C
- 关注公众号【飞鸟搜题】查看答案

2. 如图分别为k=1,k=10,k=30时,训练集数据与测试集数据的分布,说法正确的是( ) k=1 k=10 k=30

A. 近邻选得越多,模型越容易受敏感点的影响。

B. 近邻选得越少,模型越容易受敏感点的影响。

C. 近邻选得越少,模型越稳健,但是不容易发现一些敏感部分。

D. 近邻选得越少,模型越稳健,越容易发现一些敏感部分。

答案:B
- 关注公众号【飞鸟搜题】查看答案

3. 在回归学习中常用的损失函数是( )。

A. 0-1损失函数

B. 平方损失函数

C. 指数损失函数

D. 负二项损失函数

答案:B
- 关注公众号【飞鸟搜题】查看答案

4. 下列关于决定系数的说法不正确的是( )。

A. 越接近于0说明模型拟合得越好

B. 决定系数是指模型解释了的数据波动的比例

C. 取值区间为[0,1]

D. 越接近于1说明模型拟合得越好

答案:A
- 关注公众号【飞鸟搜题】查看答案

5. 下列关于期望预测误差的说法错误的是( )。

A. 期望预测误差实际上是真实值与预测值在某种损失函数下的差值

B. 期望预测误差实际上是真实值与预测值在某种损失函数下的平均值

C. 通常我们使用期望预测误差作为寻优的目标函数

D. 有监督学习模型的目的是寻找一个可以很好地描述自变量X与因变量Y之间关系的函数f

答案:关注公众号【飞鸟搜题】查看答案

6. 下列关于AUC的说法不正确的是( )。

A. AUC被定义为ROC曲线下的面积,也就是ROC曲线的积分

B. 通常取值在0.5~1

C. 随机挑选一个正样本以及一个负样本,分类器判定正样本的值高于负样本的概率就是AUC值

D. AUC值(面积)越小的分类器,性能越好

答案:关注公众号【飞鸟搜题】查看答案

7. 下列关于聚类方法说法正确的是( )

A. DBSCAN聚类可以用于数据分布不均匀,呈块状分布,并且聚集形态是任意形状的情况。

B. 快速聚类要事先确定聚类个数,但是运算速度很快,适合少量数据的情况。

C. 系统聚类可以给出聚类过程,但是要事先确定聚类个数。

D. 聚类分析中,快速聚类一般用于小样本情况下的样本聚类。

答案:关注公众号【飞鸟搜题】查看答案

8. 在聚类分析中,如果新类与其他类别之间存在多个点与点之间的距离,将公式Dkn= Dkp+Dkq2-Dpq4作为两类的距离,按照最小距离原则吧类别之间距离最小的两类合并为一类,直至把所有样本归为一类,该方法为( )。

A. 中间距离法

B. 离差平方和法

C. 重心法

D. 类平均法

答案:关注公众号【飞鸟搜题】查看答案

9. 指事物或现象呈周而复始的变动,且是无固定规律的交替波动,称为( )

A. 长期趋势

B. 季节变动

C. 循环波动

D. 不规则变动

答案:关注公众号【飞鸟搜题】查看答案

10. 请问下面的哪个模型是自回归模型( )

A. Xt=0.8Xt-1+at-1-0.8at-2

B. Xt=0.8Xt-1+at

C. Xt=at-1-0.8at-2

D. Xt=Xt-1+at-1.2at-1-0.5at-2

答案:关注公众号【飞鸟搜题】查看答案

11. 下列关于相关系数r的说法不正确的是( )。

A. r具有对称性

B. r的数值的大小与x和y的计量尺度无关

C. r无法反映两个变量之间的因果关系

D. r≥0时,表明两个变量之间存在负线性相关关系

答案:关注公众号【飞鸟搜题】查看答案

12. 下列关于相关系数r的说法不正确的是( )。

A. 当r=0时,表现为完全不相关

B. 当r=0时,表现为无线性相关

C. 当r取值为-1时,表示为完全负线性相关

D. 当r取值为1时,表示为完全正线性相关

答案:关注公众号【飞鸟搜题】查看答案

13. 下列关于相关系数r的说法不正确的是( )。

A. r具有对称性

B. r的数值的大小与x和y的计量尺度无关

C. r能够反映两个变量之间的因果关系

D. r≥0时,表明两个变量之间存在正线性相关关系

答案:关注公众号【飞鸟搜题】查看答案

14. 如需在Python中安装第三方工具库或包(packages),可以在终端使用的 命令是( )。

A. install (package的名称)

B. install pip (package的名称)

C. pip install (package的名称)

D. pip (package的名称)

答案:关注公众号【飞鸟搜题】查看答案

15. 在Python基本库中,最常见也是最主要的数据结构类型是( )。

A. 表格

B. 文字

C. 数组

D. 序列

答案:关注公众号【飞鸟搜题】查看答案

16. 假定隐变量的随机误差项服从Logit分布的模型是( )。

A. 线性概率模型

B. 二元Probit模型

C. 二元Logit模型

D. 计数模型

答案:关注公众号【飞鸟搜题】查看答案

17. 在多重选择模型中,对于无序选择模型,一般假定随机误差项是独立同分布的随机变量,且假定服从( )。

A. 卡方分布

B. 均匀分布

C. 标准正态分布

D. 韦布尔分布

答案:关注公众号【飞鸟搜题】查看答案

18. 离散因变量具有两个选项或两种属性,离散因变量的属性往往是对立或互斥的模型是( )

A. 线性概率模型

B. 计数模型

C. 二元选择模型

D. 多重选择模型

答案:关注公众号【飞鸟搜题】查看答案

19. 下列关于主成分的属性说法错误的是( )。

A. 它们是原始变量的线性组合

B. 它们相互正交(垂直)

C. 它们捕获了数据差异最小的方向

D. 它们捕获了数据差异最大的方向

答案:关注公众号【飞鸟搜题】查看答案

20. 下列关于函数dropna()的说法不正确的是( )。

A. 作用是删除缺失值

B. 默认是删除行

C. 默认是删除列

D. 作用于数据框来实现

答案:关注公众号【飞鸟搜题】查看答案

二 、多选题

1. 下列不属于相关分析根据相关关系表现形式的不同划分的是( )。

A. 非线性相关分析

B. 偏相关分析

C. 非参数相关分析

D. 线性相关分析

答案:关注公众号【飞鸟搜题】查看答案

2. 决策树是一种由节点和有向边组成的层次结构。下列属于决策树的节点的是:( )

A. 根节点

B. 内部节点

C. 叶节点

D. 终节点

答案:关注公众号【飞鸟搜题】查看答案

3. 针对于多分类问题,我们可以采取哪些方法。( )

A. “一对一”,对于两两的类别组合,建立个二分类模型;

B. 选择可以直接进行多分类的模型;

C. 直接使用针对二分类问题的模型;

D. “一对其他”,给每个类别与其他非此类别的样本建立二分类模型。

答案:关注公众号【飞鸟搜题】查看答案

4. 下图分别为原始数据和一阶差分数据的单位根检验的结果,根据其p值,可以看出原始数据的单位根检验( ),即p值非常大,没有充分的理由拒绝原假设,即原始序列是( )的序列;而一阶差分后的序列的单位根检验的p值( ),故可以拒绝原假设,认为一阶差分序列是( )。

A. 不显著;平稳

B. 不显著;非平稳

C. 显著;平稳

D. 显著;非平稳

答案:关注公众号【飞鸟搜题】查看答案

5. 下列关于函数duplicated()的说法不正确的是( )。

A. 函数结果会返回数据中的所有重复值

B. 函数结果会返回一个布尔数组

C. 函数结果表明每一行是否与前面行有重复

D. 函数结果会返回数据中的所有非重复值

答案:关注公众号【飞鸟搜题】查看答案

6. 依据离散因变量选项的含义和次序的不同,可以将多重选择模型分为( ).

A. ordinal probit模型

B. 有序模型

C. 无序模型

D. ordinal logit模型

答案:关注公众号【飞鸟搜题】查看答案

7. 下列操作属于数据分析和挖掘的一般流程的是( )。

A. 数据预处理

B. 探索性分析

C. 从平台或渠道获取数据

D. 将模型结果进行可视化

答案:关注公众号【飞鸟搜题】查看答案

8. 下列关于期望预测误差的说法正确的是( )。

A. 期望预测误差实际上是真实值与预测值在某种损失函数下的差值

B. 期望预测误差实际上是真实值与预测值在某种损失函数下的平均值

C. 通常我们使用期望预测误差作为寻优的目标函数

D. 有监督学习模型的目的是寻找一个可以很好地描述自变量X与因变量Y之间关系的函数f

答案:关注公众号【飞鸟搜题】查看答案

9. 下列属于由混淆矩阵导出的评价准则的是( )。

A. 准确率

B. 精确率

C. 召回率

D. F1 score

答案:关注公众号【飞鸟搜题】查看答案

10. 下面哪些距离是明氏距离:( )

A. 绝对距离

B. 欧氏距离

C. 车比雪夫距离

D. 马氏距离

答案:关注公众号【飞鸟搜题】查看答案

三 、判断题

1. DBSCAN算法的目的是找到密度相连对象的最小集合。

A.

B. ×

答案:关注公众号【飞鸟搜题】查看答案

2. 全球温度异常数据中有呈直线上升的趋势,这种变动是长期趋势波动。

A.

B. ×

答案:关注公众号【飞鸟搜题】查看答案

3. 对于分类任务的数据挖掘,评价指标一般可通过一个混淆矩阵计算得到,包括准确度、特效度、灵敏度以及考虑错分成本的指标。

A.

B. ×

答案:关注公众号【飞鸟搜题】查看答案

4. 在回归学习中常用的损失函数是指数损失函数。

A.

B. ×

答案:关注公众号【飞鸟搜题】查看答案

5. Python中可以使用“#”作为注释,“#”右边的一切内容均不会被执行。

A.

B. ×

答案:关注公众号【飞鸟搜题】查看答案

6. 先验概率与后验概率一定不相同。

A.

B. ×

答案:关注公众号【飞鸟搜题】查看答案

7. 通常情况下,线性判别(距离判别)一般采用马氏距离。

A.

B. ×

答案:关注公众号【飞鸟搜题】查看答案

8. 数据预处理涉及数据整理和整合的各个方面,包括数据清洗、筛选和数据变换,用于数据挖掘前的模型选择等,有助于提高数据挖掘的效率。

A.

B. ×

答案:关注公众号【飞鸟搜题】查看答案

9. P-P图或Q-Q图形在残差符合正态假定条件下,散点图看起来应该像是一条截距为0、斜率为1的直线。

A.

B. ×

答案:关注公众号【飞鸟搜题】查看答案

10. 置信度确定Y在包含X的事务中出现的频繁程度。

A.

B. ×

答案:关注公众号【飞鸟搜题】查看答案

四 、配伍题

1. 请为名词选择①-④表示其含义的描述,将配好的A-D填写到括号中。

A. ①真正类 ->

B. 如果一个点属于负类并且被预测到正类中

C. 如果一个点属于正类并且被预测到正类中

D. ②假正类 ->

E. 如果一个点属于正类并且被预测到负类中

F. ③真负类 ->

G. 如果一个点属于负类并且被预测到负类中

H. ④假负类 ->

答案:关注公众号【飞鸟搜题】查看答案

关注公众号【飞鸟搜题】,回复【试题】获取试卷答案

电话咨询