23春大数据分析与挖掘技术试卷包-03
关注公众号【飞鸟搜题】,回复【试题】获取试卷答案
文档说明:本人针对该科精心汇总了历年题库及答案,形成一个完整的题库,并且每年都在更新。该题库对考生的复习、作业和考试起着非常重要的作用,会给您节省大量的时间。做考题时,利用本文档中的查找工具,把考题中的关键字输到查找工具的查找内容框内,就可迅速查找到该题答案。本文库还有期末考核试题、其他网核及教学考一体化、一网一平台复习试题与答案,敬请查看。
课程题目试题是随机的,请按题目关键词查找(或按Ctrl+F输入题目中的关键词,尽量不要输入整个题目,不要复制空格,连续的几个字就行)
本文由【飞鸟搜题】微信公众号提供,禁止复制盗取,违者必究
本文由【飞鸟搜题】微信公众号提供,禁止复制盗取,违者必究
本文由【飞鸟搜题】微信公众号提供,禁止复制盗取,违者必究

一 、单选题
1. 下列操作不属于数据分析和挖掘的一般流程的是( )。
A. 数据预处理
B. 探索性分析
C. 从平台或渠道获取数据
D. 将模型结果进行可视化
答案:C
- 关注公众号【飞鸟搜题】查看答案
2. 下列关于Python中的注释说法正确的是( )。
A. Python中可以使用“#”作为注释,“#”右边的一切内容均不会被执行
B. Python中可以使用“#”进行一行或多行注释
C. Python中注释下的一切内容会被执行但不显示
D. Python中只有使用“#”这一种注释方法
答案:A
- 关注公众号【飞鸟搜题】查看答案
3. 下列代码可以将数据集data中的重复个体检测出的是( )。
A. data.repeat()
B. data.repetition()
C. data.duplicated()
D. data.duplication()
答案:C
- 关注公众号【飞鸟搜题】查看答案
4. 下面哪项代码是对数据data进行标准化的过程( )。
A. Z = (data - data.mean()) / data.std()
B. Z = (data.mean() - data) / data.std()
C. Z = (data - data.std()) / data.mean()
D. Z = (data.std() - data) / data.mean()
答案:A
- 关注公众号【飞鸟搜题】查看答案
5. 从下面的时序图不能得到的结论是( )
A. 该序列具有零均值
B. 该序列均值不随时间变化而变化
C. 这是一个平稳时间序列
D. 这是一个非平稳时间序列
答案:关注公众号【飞鸟搜题】查看答案
6. 下列不属于要研究平稳时间序列的原因为( )
A. 在平稳的保证情况下,对历史时序数据进行分析的参数估计结果也比较稳定;
B. 平稳时间序列可以直接用于对未来时序数据的预测;
C. 平稳时间序列存在“伪回归”的情况;
D. 非平稳时间序列在分析时,本来没有什么关系的变量之间可能出现“伪回归”的情况。
答案:关注公众号【飞鸟搜题】查看答案
7. 下列关于决定系数的说法不正确的是( )。
A. 越接近于0说明模型拟合得越好
B. 决定系数是指模型解释了的数据波动的比例
C. 取值区间为[0,1]
D. 越接近于1说明模型拟合得越好
答案:关注公众号【飞鸟搜题】查看答案
8. 下列关于偏差和方差的说法不正确的是( )。
A. 偏差和方差受模型的复杂度影响
B. 模型越复杂,偏差越小,方差越大
C. 模型越复杂,偏差越大,方差越小
D. 模型越简单,偏差越大,而方差越小
答案:关注公众号【飞鸟搜题】查看答案
9. 下列关于期望预测误差的说法错误的是( )。
A. 期望预测误差实际上是真实值与预测值在某种损失函数下的差值
B. 期望预测误差实际上是真实值与预测值在某种损失函数下的平均值
C. 通常我们使用期望预测误差作为寻优的目标函数
D. 有监督学习模型的目的是寻找一个可以很好地描述自变量X与因变量Y之间关系的函数f
答案:关注公众号【飞鸟搜题】查看答案
10. 下列不属于回归模型评价指标的是( )。
A. 平均绝对误差
B. 平均相对误差
C. 平均平方误差
D. 决定系数
答案:关注公众号【飞鸟搜题】查看答案
11. 下列关于类间距确定方法说法错误的是( )。
A. 离差平方和法要求样本间距离可以采用欧式距离、马氏距离等;
B. 重心法考虑了每一类中所包含的样本点数目;
C. 类平均法充分利用各个样本的信息;
D. 使用离差平方和作为类间距离时,如果聚类聚得恰当,类内样本点之间的离差平方和应该较小,类间离差平方和应该较大。
答案:关注公众号【飞鸟搜题】查看答案
12. 快速聚类中,要确定数据到底聚成几个类合适,我们可以设定K从1到K的变化,计算相应的( ),选择其最( )的类别个数。
A. SSE;大
B. SSE;小
C. SSR;大
D. SSR;小
答案:关注公众号【飞鸟搜题】查看答案
13. 分析自变量对计数因变量的影响时所建立的模型为( )。
A. 线性回归模型
B. Logistic回归模型
C. 分位数回归
D. 计数模型
答案:关注公众号【飞鸟搜题】查看答案
14. P-P图或Q-Q图形在残差符合正态假定条件下,散点图看起来应该像是( )。
A. 一条水平直线
B. 一条截距为0、斜率为-1的直线
C. 一条截距为0、斜率为1的直线
D. 一条垂直直线
答案:关注公众号【飞鸟搜题】查看答案
15. 假定隐变量的随机误差项服从标准正态分布的模型是( )。
A. 线性概率模型
B. 二元Probit模型
C. 二元Logit模型
D. 计数模型
答案:关注公众号【飞鸟搜题】查看答案
16. 下列关于相关关系的说法不正确的是( )。
A. 相关关系主要体现为变量之间的相互依存关系
B. 主要考察变量之间的相互影响,这种影响不存在方向性
C. 相关关系是确定性的
D. 相关关系是不确定的
答案:关注公众号【飞鸟搜题】查看答案
17. 下列关于相关系数r的说法不正确的是( )。
A. 当r=0时,表现为完全不相关
B. 当r=0时,表现为无线性相关
C. 当r取值为-1时,表示为完全负线性相关
D. 当r取值为1时,表示为完全正线性相关
答案:关注公众号【飞鸟搜题】查看答案
18. 按相关因素(变量)之间的关系形态不同,可以将相关关系分为( )。
A. 单相关和复相关
B. 正相关和负相关
C. 线性相关和非线性相关
D. 偏相关和参数相关
答案:关注公众号【飞鸟搜题】查看答案
19. 对于解决小样本、非线性及高维模式识别问题,( )表现出许多特有的优势。
A. 支持向量机
B. 最近邻分类
C. 随机森林
D. 线性判别
答案:关注公众号【飞鸟搜题】查看答案
20. 每个样本都可以用它最接近的k个邻居来代表的算法是:( )
A. 支持向量机
B. 决策树
C. 最近邻分类
D. 线性判别
答案:关注公众号【飞鸟搜题】查看答案
二 、多选题
1. 要研究平稳时间序列的原因为( )
A. 在平稳的保证情况下,对历史时序数据进行分析的参数估计结果也比较稳定;
B. 平稳时间序列可以直接用于对未来时序数据的预测;
C. 平稳时间序列存在“伪回归”的情况;
D. 非平稳时间序列在分析时,本来没有什么关系的变量之间可能出现“伪回归”的情况。
答案:关注公众号【飞鸟搜题】查看答案
2. 随机森林的优势是( )。
A. 能够处理高维度数据,并且不用做特征选择;
B. 在训练过程中,能够检测到特征间的交互作用;
C. 训练速度快;
D. 容易做成并行化方法。
答案:关注公众号【飞鸟搜题】查看答案
3. 常用的核函数有( )。
A. 线性核
B. 高斯核
C. 神经网络核
D. 多项式核
答案:关注公众号【飞鸟搜题】查看答案
4. 下列关于偏差和方差的说法正确的是( )。
A. 偏差和方差受模型的复杂度影响
B. 模型越复杂,偏差越小,方差越大
C. 模型越复杂,偏差越大,方差越小
D. 模型越简单,偏差越大,方差越小
答案:关注公众号【飞鸟搜题】查看答案
5. 下列关于性能评估的指标说法正确的是( )。
A. 对于预测任务的数据挖掘,性能评估的指标包括平均绝对误差和均方根误差等
B. 对于分类任务的数据挖掘,评价指标一般可通过一个混淆矩阵计算得到
C. 数据挖掘方法预测性能的评估是数据挖掘中的一个重要内容
D. ROC曲线不是常用的评价方法
答案:关注公众号【飞鸟搜题】查看答案
6. 缺失值的产生,有可能是因为( )。
A. 数据本身为异常值
B. 某些原因没有收集到信息
C. 对于这些个体来说这些属性是不可用的
D. 数据重复出现
答案:关注公众号【飞鸟搜题】查看答案
7. 下面关于Poisson回归模型说法不正确的是( )
A. 又称为计数模型
B. 假设观测因变量数据服从Poisson分布
C. 使用极大似然法进行参数估计
D. 模型不需要进行检验
答案:关注公众号【飞鸟搜题】查看答案
8. 下列不属于相关分析根据相关关系表现形式的不同划分的是( )。
A. 非线性相关分析
B. 偏相关分析
C. 非参数相关分析
D. 线性相关分析
答案:关注公众号【飞鸟搜题】查看答案
9. 下面哪个原则是聚类过程中的类需要遵从的原则( )。
A. 同质性原则
B. 互斥性原则
C. 完备性原则
D. 充分性原则
答案:关注公众号【飞鸟搜题】查看答案
10. 下列属于Python的第三方库的是( )。
A. Statsmodels
B. Matplotlib
C. Scipy
D. Scikit-learn
答案:关注公众号【飞鸟搜题】查看答案
三 、判断题
1. 如果时间序列的一阶矩、二阶矩存在,而且对任意时刻t满足均值为常数,协方差为时间间隔的函数,则称该序列为宽平稳时间序列。
A. √
B. ×
答案:关注公众号【飞鸟搜题】查看答案
2. Python是一种面向对象的解释型高级编程语言,其结构简单,易于学习和维护,但可移植性和可扩展性较差。
A. √
B. ×
答案:关注公众号【飞鸟搜题】查看答案
3. 相关分析根据其分析方法和处理对象不同,可以分为线性相关分析和非线性相关分析。
A. √
B. ×
答案:关注公众号【飞鸟搜题】查看答案
4. 对于Poisson回归模型,可以使用极大似然估计进行参数估计。
A. √
B. ×
答案:关注公众号【飞鸟搜题】查看答案
5. 通过样本估计期望预测误差一般有重复抽样和交叉验证两种方式。
A. √
B. ×
答案:关注公众号【飞鸟搜题】查看答案
6. Dunn指数刻画了所有类两两之间的最短距离与最大类的“直径”之比,该指数越大,说明类与类之间分得越开。
A. √
B. ×
答案:关注公众号【飞鸟搜题】查看答案
7. 多元统计分析中的聚类分析方法既可以对样本进行分类,记为Q型分类,也可以对反映事物特征的指标或变量进行分类,记为R型分类。
A. √
B. ×
答案:关注公众号【飞鸟搜题】查看答案
8. 除了填补缺失值,另一个处理缺失值的常用方法就是删除缺失值。这可以通过函数dropna()作用于数据框来实现。
A. √
B. ×
答案:关注公众号【飞鸟搜题】查看答案
9. 判别分析的核心是建立判别法则。
A. √
B. ×
答案:关注公众号【飞鸟搜题】查看答案
10. 决策树中,我们需要比较父节点与子节点的不纯度,他们的差越小,测试条件的效果就越好。
A. √
B. ×
答案:关注公众号【飞鸟搜题】查看答案
四 、配伍题
1. 请为名词选择①-④表示其含义的描述,将配好的A-D填写到括号中。 设dij表示第i个样本与第j个样本之间的距离。
A. ①绝对距离 ->
B. dij∞=max1≤k≤pxik-xjk
C. ②切比雪夫距离 ->
D. dij1=∑k=1pxik-xjk
E. dij=Xi-Xj'∑-1Xi-Xj
F. ③马氏距离 ->
G. ④欧氏距离 ->
H. dij2=∑k=1pxik-xjk21/2
答案:关注公众号【飞鸟搜题】查看答案
关注公众号【飞鸟搜题】,回复【试题】获取试卷答案

微信扫码添加好友
如二维码无法识别,可拨打 13662661040 咨询。