百年教育职业培训中心 百年教育学习服务平台
题库试卷

【国开搜题】国家开放大学 一网一平台24春大数据分析与挖掘技术试卷包05期末考试押题试卷与答案

来源: 更新时间:

23春大数据分析与挖掘技术试卷包-05关注公众号【国开搜题】,回复【试题】获取试题答案一、单选题1.在Python基本库中,最常见也是最主要的数据结构类型是()。A.表格B.文字C.数组D.序列答案:

23春大数据分析与挖掘技术试卷包-05

关注公众号【国开搜题】,回复【试题】获取试题答案

、单选题

1. Python基本库中,最常见也是最主要的数据结构类型是( )。

A. 表格

B. 文字

C. 数组

D. 序列

答案:D
- 关注公众号【国开搜题】,对话框内发送试题,获得答案。

2. 下列关于Python中的注释说法正确的是( )。

A. Python中可以使用“#”作为注释,“#”右边的一切内容均不会被执行

B. Python中可以使用“#”进行一行或多行注释

C. Python中注释下的一切内容会被执行但不显示

D. Python中只有使用“#”这一种注释方法

答案:A
- 关注公众号【国开搜题】,对话框内发送试题,获得答案。

3. 删除缺失值的函数dropna(),默认是删除行,如果要对列进行删除,则需要添加参数( )。

A. axis=null

B. axis=-1

C. axis=0国开一网一平台渝粤教育

D. axis=1

答案:D
- 关注公众号【国开搜题】,对话框内发送试题,获得答案。

4. 下列关于主成分分析的说法错误的是( )。

A. 主成分分析一种经典的减少分析变量的方法

B. 它将数据从原始的低维空间投影到高维空间

C. 它将数据从原始的高维空间投影到低维空间

D. 所有原始变量可通过变换的方式得到综合变量,称为主成分

答案:B
- 关注公众号【国开搜题】,对话框内发送试题,获得答案。

5. 请问下面的哪个模型是移动平均模型(

A. Xt=0.8Xt-1+at-1-0.8at-2

B. Xt=0.8Xt-1+at

C. Xt=at-1-0.8at-2

D. Xt=Xt-1+at-1.2at-1-0.5at-2

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

6. 事物或现象在一年内随着季节更换而形成的有规律变动,称为( B )

A. 长期趋势

B. 季节变动

C. 循环波动

D. 不规则变动

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

7. 下列关于AUC的说法不正确的是( )。渝粤搜题

A. AUC被定义为ROC曲线下的面积,也就是ROC曲线的积分

B. 通常取值在0.5~1

C. 随机挑选一个正样本以及一个负样本,分类器判定正样本的值高于负样本的概率就是AUC

D. AUC值(面积)越小的分类器,性能越好

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

8. 下列属于聚类模型评价的内部指标的是( )。

A. DB指数

B. Jaccard系数

C. FM指数

D. Rand指数

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

9. 在回归学习中常用的损失函数是( )。

A. 0-1损失函数

B. 平方损失函数

C. 指数损失函数

D. 负二项损失函数

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

10. 下列关于决定系数的说法不正确的是( )。

A. 越接近于0说明模型拟合得越好

B. 决定系数是指模型解释了的数据波动的比例

C. 取值区间为[0,1]

D. 越接近于1说明模型拟合得越好

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

11. 当不知道哪些花是同一品种,哪些花不同品种时,考虑按照花瓣长宽与花萼长宽将不同品种的花分类。通常采用( )。

A. 聚类分析

B. 分类

C. 回归分析

D. 关联分析

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

12. 按照经济发展、教育水平、面积大小、人口等诸多方面对我国地市级以上城市进行分类。通常采用( )。

A. 回归分析

B. 分类

C. 关联分析

D. 聚类分析

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

13. 定性因素对因变量的影响在进行回归分析的过程中,需要进行特殊的处理是( )。

A. 把定性变量取对数再做分析

B. 把定性变量转化为虚拟变量之后再引入回归模型中进行分析

C. 把定性变量去掉

D. 无需做任何处理

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

14. 假定隐变量的随机误差项服从标准正态分布的模型是( )。

A. 线性概率模型

B. 二元Probit模型

C. 二元Logit模型

D. 计数模型

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

15. 在多重选择模型中,对于无序选择模型,一般假定随机误差项是独立同分布的随机变量,且假定服从( )。

A. 卡方分布

B. 均匀分布

C. 标准正态分布

D. 韦布尔分布

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

16. 下列关于关联规则的说法不正确的是( )。

A. 关联规则的强度可以用支持度和置信度度量

B. 支持度确定规则可以用于给定数据集的频繁程度渝粤题库

C. 置信度确定Y在包含X的事务中出现的频繁程度

D. 支持度确定Y在包含X的事务中出现的频繁程度

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

17. 下列关于相关关系的说法不正确的是( )。

A. 相关关系主要体现为变量之间的相互依存关系

B. 主要考察变量之间的相互影响,这种影响不存在方向性

C. 相关关系是确定性的

D. 相关关系是不确定的

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

18. 下列关于相关系数r的说法不正确的是( )。

A. r具有对称性

B. r的数值的大小与xy的计量尺度无关

C. r能够反映两个变量之间的因果关系

D. r≥0时,表明两个变量之间存在正线性相关关系

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

19. 关于混淆矩阵,如果一个点属于正类并且被预测到正类中,称为:(

A. 真正类;

B. 假正类;

C. 真负类;渝粤教育

D. 假负类。

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

20. 样品和哪个总体距离最近,就判它属于哪个总体的分类方法是:(

A. 支持向量机

B. 决策树

C. 最近邻分类

D. 线性判别

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

、多选题

1. ARp)模型的基本假设有( )。

A. 假设Xt仅与Xt-1, Xt-2,……,Xt-p有线性关系;

B. Xt-1, Xt-2,……,Xt-p已知的条件下,XtXt-p-1,Xt-p-2……线性相关

C. 随机误差项是一个白噪声;

D. Xt-1, Xt-2,……,Xt-p已知的条件下,XtXt-p-1,Xt-p-2……无关;

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

2. 常用的核函数有( )。

A. 线性核国开搜题

B. 高斯核

C. 神经网络核

D. 多项式核

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

3. 下列关于KNN算法说法正确的是( )。

A. 随着k值的增加,模型的复杂度增大

B. 在实际应用中,一般采用交叉验证的方法来估计预测误差,找出使得估计的预测误差最小的k

C. 最近邻分类每个样本都可以用它最接近的k个邻居来代表

D. 近邻选得少,模型则比较稳健。

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

4. 期望预测误差主要包括( )。渝粤教育

A. 模型假设失误带来的误差

B. 采用某种方法估计最优值时,估计值的平均可能偏离了真实值

C. 估计值自身由于数据的随机性产生一个波动部分

D. 一些主观人为因素国开一网一平台

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

5. 下列关于聚类模型评价的外部指标说法错误的是( )。

A. Dunn指数越小,说明类与类之间分得越开

B. Dunn指数越大,说明类与类之间分得越开

C. DB指数刻画的是一个平均距离,该指数越小,说明聚类越好

D. DB指数刻画的是一个平均距离,该指数越大,说明聚类越好

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

6. 下列关于函数duplicated()的说法正确的是( )。

A. 函数结果会返回数据中的所有重复值

B. 函数结果会返回一个布尔数组

C. 函数结果表明每一行是否与前面行有重复

D. 函数结果会返回数据中的所有非重复值

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

7. 下列关于线性概率模型,说法正确的是(

A. 解释变量的合理变化会导致预测概率溢出[0,1]区间;

B. 使用加权最小二乘法修正异方差性可以保证概率预测值在[0,1]区间。

C. 当样本量充分大时,普通最小二乘法参数估计量的结果近似服从正态分布,可以克服随机误差项分布未知的缺陷。

D. 模型误差具有异方差性,但异方差性不影响参数估计。

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

8. 按相关因素(变量)的多少,可以将相关关系分为( )。

A. 单相关

B. 复相关

C. 线性相关

D. 非线性相关

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

9. DBSCAN算法中的直接密度可达、密度可达与密度相连理解正确的是(

A. 只有核心对象之间相互密度可达

B. 密度相连是对称关系

C. DBSCAN目的是找到密度相连对象的最大集合

D. 密度可达也是对称关系

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

10. 下列操作属于数据分析和挖掘的一般流程的是( )。

A. 数据预处理

B. 探索性分析

C. 从平台或渠道获取数据

D. 将模型结果进行可视化

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

、判断题

1. 如果时间序列的一阶矩、二阶矩存在,而且对任意时刻t满足均值为常数,协方差为时间间隔的函数,则称该序列为严平稳时间序列。

A.

B. ×

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

2. 经典统计中强调的推断在数据挖掘中依然存在。

A.

B. ×

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

3. 关联规则是指形如X→Y的蕴含表达式,其中XY是不相交的项集。

A.

B. ×

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

4. 如果在存在非线性关系的情况下使用线性回归拟合曲线也是可以的,不会影响结论。

A.

B. ×

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

5. 随机挑选一个正样本以及一个负样本,分类器判定正样本的值高于负样本的概率就是AUC值。

A.

B. ×

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

6. 通过样本估计期望预测误差一般有重复抽样和交叉验证两种方式。

A.

B. ×

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。渝粤搜题

7. 聚类分析中,类平均法充分利用各个样本的信息。渝粤教育

A.

B. ×

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

8. 一些数据集是由合并数据源形成的,这就使其有可能含有重复数据或者近似重复的个体。

A. 渝粤题库,我们的目标是要做全覆盖、全正确的答案搜索服务。

B. ×

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

9. 先验概率与后验概率一定不相同。

A.

B. ×

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

10. 判别规则所依据的最简单的原则是,新样本离哪一个类别中心的距离最近,那么它就属于哪一类。渝粤教育

A.

B. ×

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

、配伍题国开一网一平台

1. 请为名词选择①-⑥表示其含义的描述,将配好的A-F填写到括号中。

A. 最小距离法 ->

B. Dkn=NpDkp+NqDkqNn国开搜题

C. 最长距离法 ->

D. Dkn=Dkp+Dkq2-Dpq4

E. Dkn=NpDkp+NqDkqNn-NpNqDpqNn2

F. 中间距离法 ->

G. Dkn=MaxDkpDkq国开搜题

H. 重心法 ->

I. Dkn=Nk+NpDkp+Nk+NqDkq-NkDpqNk+Nn

J. 类平均法 ->

K. 离差平方和法 ->

L. Dkn=MinDkpDkq

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

关注公众号【国开搜题】,回复【试题】获取试题答案

电话咨询