23春大数据分析与挖掘技术试卷包-新-04
关注公众号【飞鸟搜题】,回复【试题】获取试卷答案
文档说明:本人针对该科精心汇总了历年题库及答案,形成一个完整的题库,并且每年都在更新。该题库对考生的复习、作业和考试起着非常重要的作用,会给您节省大量的时间。做考题时,利用本文档中的查找工具,把考题中的关键字输到查找工具的查找内容框内,就可迅速查找到该题答案。本文库还有期末考核试题、其他网核及教学考一体化、一网一平台复习试题与答案,敬请查看。
课程题目试题是随机的,请按题目关键词查找(或按Ctrl+F输入题目中的关键词,尽量不要输入整个题目,不要复制空格,连续的几个字就行)
本文由【飞鸟搜题】微信公众号提供,禁止复制盗取,违者必究
本文由【飞鸟搜题】微信公众号提供,禁止复制盗取,违者必究
本文由【飞鸟搜题】微信公众号提供,禁止复制盗取,违者必究

一 、单选题
1. 决策树算法中,将当前样本划分为两个子样本,使得生成的每个非叶节点都有两个分支的算法是( )
A. Hunt
B. ID3
C. CART
D. C4.5
答案:C
- 关注公众号【飞鸟搜题】查看答案
2. 如图分别为k=1,k=10,k=30时,训练集数据与测试集数据的分布,说法正确的是( )
k=1
k=10
k=30
A. 近邻选得越多,模型越容易受敏感点的影响。
B. 近邻选得越少,模型越容易受敏感点的影响。
C. 近邻选得越少,模型越稳健,但是不容易发现一些敏感部分。
D. 近邻选得越少,模型越稳健,越容易发现一些敏感部分。
答案:B
- 关注公众号【飞鸟搜题】查看答案
3. 在回归学习中常用的损失函数是( )。
A. 0-1损失函数
B. 平方损失函数
C. 指数损失函数
D. 负二项损失函数
答案:B
- 关注公众号【飞鸟搜题】查看答案
4. 下列关于决定系数的说法不正确的是( )。
A. 越接近于0说明模型拟合得越好
B. 决定系数是指模型解释了的数据波动的比例
C. 取值区间为[0,1]
D. 越接近于1说明模型拟合得越好
答案:A
- 关注公众号【飞鸟搜题】查看答案
5. 下列关于期望预测误差的说法错误的是( )。
A. 期望预测误差实际上是真实值与预测值在某种损失函数下的差值
B. 期望预测误差实际上是真实值与预测值在某种损失函数下的平均值
C. 通常我们使用期望预测误差作为寻优的目标函数
D. 有监督学习模型的目的是寻找一个可以很好地描述自变量X与因变量Y之间关系的函数f
答案:关注公众号【飞鸟搜题】查看答案
6. 下列关于AUC的说法不正确的是( )。
A. AUC被定义为ROC曲线下的面积,也就是ROC曲线的积分
B. 通常取值在0.5~1
C. 随机挑选一个正样本以及一个负样本,分类器判定正样本的值高于负样本的概率就是AUC值
D. AUC值(面积)越小的分类器,性能越好
答案:关注公众号【飞鸟搜题】查看答案
7. 下列关于聚类方法说法正确的是( )
A. DBSCAN聚类可以用于数据分布不均匀,呈块状分布,并且聚集形态是任意形状的情况。
B. 快速聚类要事先确定聚类个数,但是运算速度很快,适合少量数据的情况。
C. 系统聚类可以给出聚类过程,但是要事先确定聚类个数。
D. 聚类分析中,快速聚类一般用于小样本情况下的样本聚类。
答案:关注公众号【飞鸟搜题】查看答案
8. 在聚类分析中,如果新类与其他类别之间存在多个点与点之间的距离,将公式Dkn= Dkp+Dkq2-Dpq4作为两类的距离,按照最小距离原则吧类别之间距离最小的两类合并为一类,直至把所有样本归为一类,该方法为( )。
A. 中间距离法
B. 离差平方和法
C. 重心法
D. 类平均法
答案:关注公众号【飞鸟搜题】查看答案
9. 指事物或现象呈周而复始的变动,且是无固定规律的交替波动,称为( )
A. 长期趋势
B. 季节变动
C. 循环波动
D. 不规则变动
答案:关注公众号【飞鸟搜题】查看答案
10. 请问下面的哪个模型是自回归模型( )
A. Xt=0.8Xt-1+at-1-0.8at-2
B. Xt=0.8Xt-1+at
C. Xt=at-1-0.8at-2
D. Xt=Xt-1+at-1.2at-1-0.5at-2
答案:关注公众号【飞鸟搜题】查看答案
11. 下列关于相关系数r的说法不正确的是( )。
A. r具有对称性
B. r的数值的大小与x和y的计量尺度无关
C. r无法反映两个变量之间的因果关系
D. r≥0时,表明两个变量之间存在负线性相关关系
答案:关注公众号【飞鸟搜题】查看答案
12. 下列关于相关系数r的说法不正确的是( )。
A. 当r=0时,表现为完全不相关
B. 当r=0时,表现为无线性相关
C. 当r取值为-1时,表示为完全负线性相关
D. 当r取值为1时,表示为完全正线性相关
答案:关注公众号【飞鸟搜题】查看答案
13. 下列关于相关系数r的说法不正确的是( )。
A. r具有对称性
B. r的数值的大小与x和y的计量尺度无关
C. r能够反映两个变量之间的因果关系
D. r≥0时,表明两个变量之间存在正线性相关关系
答案:关注公众号【飞鸟搜题】查看答案
14. 如需在Python中安装第三方工具库或包(packages),可以在终端使用的 命令是( )。
A. install (package的名称)
B. install pip (package的名称)
C. pip install (package的名称)
D. pip (package的名称)
答案:关注公众号【飞鸟搜题】查看答案
15. 在Python基本库中,最常见也是最主要的数据结构类型是( )。
A. 表格
B. 文字
C. 数组
D. 序列
答案:关注公众号【飞鸟搜题】查看答案
16. 假定隐变量的随机误差项服从Logit分布的模型是( )。
A. 线性概率模型
B. 二元Probit模型
C. 二元Logit模型
D. 计数模型
答案:关注公众号【飞鸟搜题】查看答案
17. 在多重选择模型中,对于无序选择模型,一般假定随机误差项是独立同分布的随机变量,且假定服从( )。
A. 卡方分布
B. 均匀分布
C. 标准正态分布
D. 韦布尔分布
答案:关注公众号【飞鸟搜题】查看答案
18. 离散因变量具有两个选项或两种属性,离散因变量的属性往往是对立或互斥的模型是( )
A. 线性概率模型
B. 计数模型
C. 二元选择模型
D. 多重选择模型
答案:关注公众号【飞鸟搜题】查看答案
19. 下列关于主成分的属性说法错误的是( )。
A. 它们是原始变量的线性组合
B. 它们相互正交(垂直)
C. 它们捕获了数据差异最小的方向
D. 它们捕获了数据差异最大的方向
答案:关注公众号【飞鸟搜题】查看答案
20. 下列关于函数dropna()的说法不正确的是( )。
A. 作用是删除缺失值
B. 默认是删除行
C. 默认是删除列
D. 作用于数据框来实现
答案:关注公众号【飞鸟搜题】查看答案
二 、多选题
1. 下列不属于相关分析根据相关关系表现形式的不同划分的是( )。
A. 非线性相关分析
B. 偏相关分析
C. 非参数相关分析
D. 线性相关分析
答案:关注公众号【飞鸟搜题】查看答案
2. 决策树是一种由节点和有向边组成的层次结构。下列属于决策树的节点的是:( )
A. 根节点
B. 内部节点
C. 叶节点
D. 终节点
答案:关注公众号【飞鸟搜题】查看答案
3. 针对于多分类问题,我们可以采取哪些方法。( )
A. “一对一”,对于两两的类别组合,建立
个二分类模型;
B. 选择可以直接进行多分类的模型;
C. 直接使用针对二分类问题的模型;
D. “一对其他”,给每个类别与其他非此类别的样本建立二分类模型。
答案:关注公众号【飞鸟搜题】查看答案
4. 下图分别为原始数据和一阶差分数据的单位根检验的结果,根据其p值,可以看出原始数据的单位根检验( ),即p值非常大,没有充分的理由拒绝原假设,即原始序列是( )的序列;而一阶差分后的序列的单位根检验的p值( ),故可以拒绝原假设,认为一阶差分序列是( )。 
A. 不显著;平稳
B. 不显著;非平稳
C. 显著;平稳
D. 显著;非平稳
答案:关注公众号【飞鸟搜题】查看答案
5. 下列关于函数duplicated()的说法不正确的是( )。
A. 函数结果会返回数据中的所有重复值
B. 函数结果会返回一个布尔数组
C. 函数结果表明每一行是否与前面行有重复
D. 函数结果会返回数据中的所有非重复值
答案:关注公众号【飞鸟搜题】查看答案
6. 依据离散因变量选项的含义和次序的不同,可以将多重选择模型分为( ).
A. ordinal probit模型
B. 有序模型
C. 无序模型
D. ordinal logit模型
答案:关注公众号【飞鸟搜题】查看答案
7. 下列操作属于数据分析和挖掘的一般流程的是( )。
A. 数据预处理
B. 探索性分析
C. 从平台或渠道获取数据
D. 将模型结果进行可视化
答案:关注公众号【飞鸟搜题】查看答案
8. 下列关于期望预测误差的说法正确的是( )。
A. 期望预测误差实际上是真实值与预测值在某种损失函数下的差值
B. 期望预测误差实际上是真实值与预测值在某种损失函数下的平均值
C. 通常我们使用期望预测误差作为寻优的目标函数
D. 有监督学习模型的目的是寻找一个可以很好地描述自变量X与因变量Y之间关系的函数f
答案:关注公众号【飞鸟搜题】查看答案
9. 下列属于由混淆矩阵导出的评价准则的是( )。
A. 准确率
B. 精确率
C. 召回率
D. F1 score
答案:关注公众号【飞鸟搜题】查看答案
10. 下面哪些距离是明氏距离:( )
A. 绝对距离
B. 欧氏距离
C. 车比雪夫距离
D. 马氏距离
答案:关注公众号【飞鸟搜题】查看答案
三 、判断题
1. DBSCAN算法的目的是找到密度相连对象的最小集合。
A. √
B. ×
答案:关注公众号【飞鸟搜题】查看答案
2. 全球温度异常数据中有呈直线上升的趋势,这种变动是长期趋势波动。
A. √
B. ×
答案:关注公众号【飞鸟搜题】查看答案
3. 对于分类任务的数据挖掘,评价指标一般可通过一个混淆矩阵计算得到,包括准确度、特效度、灵敏度以及考虑错分成本的指标。
A. √
B. ×
答案:关注公众号【飞鸟搜题】查看答案
4. 在回归学习中常用的损失函数是指数损失函数。
A. √
B. ×
答案:关注公众号【飞鸟搜题】查看答案
5. Python中可以使用“#”作为注释,“#”右边的一切内容均不会被执行。
A. √
B. ×
答案:关注公众号【飞鸟搜题】查看答案
6. 先验概率与后验概率一定不相同。
A. √
B. ×
答案:关注公众号【飞鸟搜题】查看答案
7. 通常情况下,线性判别(距离判别)一般采用马氏距离。
A. √
B. ×
答案:关注公众号【飞鸟搜题】查看答案
8. 数据预处理涉及数据整理和整合的各个方面,包括数据清洗、筛选和数据变换,用于数据挖掘前的模型选择等,有助于提高数据挖掘的效率。
A. √
B. ×
答案:关注公众号【飞鸟搜题】查看答案
9. P-P图或Q-Q图形在残差符合正态假定条件下,散点图看起来应该像是一条截距为0、斜率为1的直线。
A. √
B. ×
答案:关注公众号【飞鸟搜题】查看答案
10. 置信度确定Y在包含X的事务中出现的频繁程度。
A. √
B. ×
答案:关注公众号【飞鸟搜题】查看答案
四 、配伍题
1. 请为名词选择①-④表示其含义的描述,将配好的A-D填写到括号中。
A. ①真正类 ->
B. 如果一个点属于负类并且被预测到正类中
C. 如果一个点属于正类并且被预测到正类中
D. ②假正类 ->
E. 如果一个点属于正类并且被预测到负类中
F. ③真负类 ->
G. 如果一个点属于负类并且被预测到负类中
H. ④假负类 ->
答案:关注公众号【飞鸟搜题】查看答案
关注公众号【飞鸟搜题】,回复【试题】获取试卷答案

微信扫码添加好友
如二维码无法识别,可拨打 13662661040 咨询。