百年教育职业培训中心 百年教育学习服务平台
题库试卷

渝粤教育四川开放大学-电大省开平台2023年春季学期《大数据分析与挖掘技术(省 》形考任务1234参考考(1)

来源: 更新时间:

四川开放大学-电大省开平台2023年春季学期《大数据分析与挖掘技术(省》形考任务1234参考考1.对于回归分析,下列说法错误的是()。A.在回归分析中,变量间的关系若是非确定关系,那么因变量不能由自变

四川开放大学-电大省开平台2023年春季学期《大数据分析与挖掘技术(省 》形考任务1234参考考

1.  对于回归分析,下列说法错误的是( )。

A. 在回归分析中,变量间的关系若是非确定关系,那么因变量不能由自变量唯一确定

B. 线性相关系数可以是正的,也可以是负的

C. 回归分析中,如果r^2 = 1,说明x与y之间完全相关

D. 样本相关系数r在区间(-1,1)

答案是:D. 样本相关系数r在区间(-1,1)

2.  回归分析中按照自变量和因变量的关系类型可以分为线性回归分析和()

A. 线性回归分析

B. 非线性回归分析

C. 一元回归分析

D. 多元回归分析

答案是:B. 非线性回归分析

3.  关于ROC曲线,下列说法中不正确的是()。

A. ROC曲线可表示灵敏度与特异度的关系

B. ROC曲线常被用来直观地确定诊断试验的最佳分界值

C. ROC曲线是以灵敏度为纵坐标,特异度为横坐标

D. 用ROC曲线确定的最佳分界值处,其灵敏度和特异度均较好

E. ROC曲线可以对同一种疾病的不同诊断方法的真实性进行比较

答案是:C. ROC曲线是以灵敏度为纵坐标,特异度为横坐标

4.  期望预测误差是指(      )。

A. 真实值与预测值在某种损失函数下的平均值

B. 真实值与预测值之差

C.

真实

真实

值与预测值在某种损失函数下的值

真实

值与预测值在某种损失函数下的值

真实

值与预测值在某种损失函数下的值

真实值与预测值在某种损失函数下的值

D. 真实值与预测值之比

答案是:A. 真实值与预测值在某种损失函数下的平均值

5.  

线性回归模型的

拟合优度的判定系数越大,说明( )

数据抽样后( )。

A. 数据量会增加

B. 数据量会减少

C. 数据的波动性增加

D.
数据波动性不变

答案是:

6.  关于精准率与召回率,以下说法正确的是( )

A. 精准率反映第I类错误,召回率反映第II类错误

B. 精准率就是真阳性率

C. ROC 曲线的画法是精准率为横轴,召回率为纵轴

D. 精准率越高越好,召回率越低越好

答案是:

7.  Apriori算法的加速过程依赖于以下()策略

A. 抽样

B. 剪枝

C.

缓冲

D. 并行

答案是:

8.  发现关联规则的算法通常要经过以下三个步骤:连接数据,作数据准备;给定最小支持度和(),利用数据挖掘工具提供的算法发现关联规则;可视化显示、理解、评估关联规则

A. 最小兴趣度

B. 最小置信度

C. 最大支持度

D. 最小可信度

答案是:

9.  

在关联分析中,下面哪个有可能是频繁

某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据

挖掘的哪类问题?

( )

某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(    )

A.

{

关联规则发现

B.

{

面包,牛奶,啤酒

}

聚类

C. 分类

D. 自然语言处理

答案是:

10.  Apriori算法是一种常见的()。

A. 关联规则发现算法

B. 聚类分析算法

C. 分类算法

D. 序列模式发现算法

答案是:

11.  线性回归模型显著性检验的P值越小,说明(     )

A. 对应的自变量对因变量影响越大

B. 对应的自变量对因变量影响越小

C. 变量之间的非线性关系明显

D. 变量之间的非线性关系不明显

答案是:

12.  规则I->j,“有可能”,等于所有包含I的购物篮中同时包含J的购物篮的比例,为(  )。

A. 置信度

B. 可信度

C. 兴趣度

D. 支持度

答案是:

13.  复杂的模型相较于简单模型( )。

A. 训练误差更大

B. 偏差更大

C. 方差更大

D. 期望误差更小

答案是:

14.  以下哪个是回归模型评判的指标()

A. mean_squared_error(MSE)

B. 准确率

C. 召回率

D. 轮廓系数

答案是:

15.  

典型相关分析的应用前提是()。

A. 要求任意两个变量之间为非线性关系

B. 要求两组变量之间为非线性关系

C. 要求任意两个变量之间为线性关系

D. 要求两组变量之间为线性关系

答案是:

16.  ()可以分为简单相关分析与偏相关分析。

A. 聚类分析法

B. 相关分析法

C. t检验分析法

D. 因子分析法

答案是:

1.  评价分类问题的常用指标有以下哪些?()

A. F1度量

B. 召回率(recall)

C. 精确度(precision)

D. 准确率(accuracy)

答案是:

1.  在多元线性回归中,t检验和F检验缺一不可。()

A. 错误

B. 正确

答案是:

2.  回归方程总体线性显著性检验的原假设是模型中所有的回归参数同时为零。

A. 错误

B. 正确

答案是:

3.  回归分析法即将具有相关关系的两个变量之间的数量关系进行测定,通过建立一个数学表达式进行统计估计和预测的研究。()

A. 错误

B. 正确

答案是:

1.  简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作()

A. 层次聚类

B. 划分聚类

C. 非互斥聚类

D. 模糊聚类

答案是:

2.  可用作数据挖掘分析中的关联规则算法有()。

A. 决策树、对数回归、关联模式

B. K均值法、SOM神经网络 

C. Apriori算法、FP-Tree算法

D. RBF神经网络、K均值法、决策树

答案是:

3.  下面关于线性判别与Bayes判别说法错误的是:(     )

A. 距离判别没有考虑到每个分类的观察值不同时,每类出现的机会是不同的

B. 距离判别没有考虑到误判所造成的损失差异

C. Bayes判别依据每个被判入某个类别的后验概率进行归类。

D. 后验概率越小的类就是被判别的类

答案是:

4.  数据整合后(      )。

A. 数据量会增加

B.

数据量会不变

数据量会不变

C. 数据的波动性增加

D. 数据波动性减小

答案是:

5.  ()是一个观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的。

A. 边界点

B. 质心

C. 离群点

D. 核心点

答案是:

6.  关联规则的评价指标是:( )。

A. 均方误差、均方根误差

B. Kappa统计、显著性检验

C. 支持度、置信度

D. 平均绝对误差、相对误差

答案是:

7.  关于抽样后的数据的大小说法正确的是( )。

A.

抽样比

,抽样数据越大

抽样比

,抽样数据越大

抽样比

,抽样数据越大

抽样比

抽样比例越低,抽样数据越大

B.

抽样样

量越小,抽样数据越大

,抽样数据越大

抽样比

,抽样数据越大

抽样比

,抽样数据越大

抽样比

抽样样本量越小,抽样数据越大

C.

,抽样数据越大

抽样比

,抽样数据越大

抽样比

,抽样数据越大

抽样比

抽样比例越高,抽样数据越大

D.

量越小,抽样数据越大

,抽样数据越大

抽样比

,抽样数据越大

抽样比

,抽样数据越大

抽样比

抽样样本量越大,抽样数据越小

答案是:

8.  通过聚集多个分类器的预测来提高分类准确率的技术称为 ()

A. 组合(ensemble)

B. 聚集(aggregate) 

C. 合并(combination)

D. 投票(voting)

答案是:

9.  下面关于Pearson相关系数的理解不正确的是(      )。

A. 是两个变量之间线性关系的度量指标

B.

反映

两变量之间的因

关系

反映

两变量之间的因

反映两个变量之间的因果关系

C.

两变量之间的因

关系

反映

两变量之间的因

不具有传递性

D.

数据

计算得

到的

关系

反映

两变量之间的因

是由数据计算得到的

答案是:

10.  关于随关于随机森林算法的说法错误的是:()

A.

机森林由

的决

策树

机森林由

的决

策树

机森林由

的决

策树

机森林由

的决

策树

随机森林由很多的决策树组成

B. 随机森林对输入的数据要进行行、列的采样

C.

机森林由

的决

策树

机森林由

的决

策树

机森林由

的决

策树

机森林由

的决

策树

随机森林的决策树越多,随机森林的预测精度越高

D. 随机森林能够处理很高维度(特征很多)的数据

答案是:

11.  决策树中不包含一下哪种结点 (  )

A. 根结点(root node)

B. 内部结点(internal node)

C. 外部结点(external node)

D. 叶结点(leaf node)

答案是:

12.  以下哪些算法是基于规则的分类器 ()

A. C4.5

B. KNN

C. Naive Bayes

D. ANN

答案是:

1.  在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。

A. 错误

B. 正确

答案是:

2.  决策树方法通常用于关联规则挖掘。

A. 错误

B. 正确

答案是:

3.  在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题。

A. 错误

B. 正确

答案是:

4.  分类规则的挖掘方法通常有:决策树法、贝叶斯法、人工神经网络法、粗糙集法和遗传算法。

A. 错误

B. 正确

答案是:

5.  聚类(clustering)是这样的过程:它找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。

A. 错误

B. 正确

答案是:

6.  聚类是指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。

A. 错误

B. 正确

答案是:

7.  分类是预测数据对象的离散类别,预测是用于数据对象的连续取值。

A. 错误

B. 正确

答案是:

8.  时序预测回归预测一样,也是用已知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。

A. 错误

B. 正确

答案是:

1.  一监狱人脸识别准入系统用来识别待进入人员的身份,此系统一共包括识别4种不同的人员:狱警,小偷,送餐员,其他。下面哪种学习方法最适合此种应用需求:()

A. 二分类问题 

B. 多分类问题 

C. 层次聚类问题

D. k-中心点聚类问题 

E. 回归问题

答案是:

2.  以下几种模型方法属于判别式模型(Discriminative Model)的有()1.混合高斯模型2.条件随机场模型3.区分度训练4.隐马尔科夫模型

A.

2,3

B.

3,4

C.

1,4

D.

1,2

答案是:

3.  

为研究电商注册用户数量与  其销售收入之间的关系,收集数据得到下面的散点图。请问这样的散点图适用建立下面哪种回归模型(      )。

A.  线性回归模型

B. 非线性回归模型

C. 对数线性模型

D. Logistic回归模型

答案是:

4.  我们想在大数据集上训练决策树, 为了使用较少时间, 我们可以()

A. 增加树的深度

B. 增加学习率 (learning rate) 

C. 减少树的深度

D. 减少树的数量

答案是:

5.  如果我使用数据集的全部特征并且能够达到100%的准确率,但在测试集上仅能达到70%左右,这说明:()

A. 欠拟合

B. 模型很棒

C. 过拟合

答案是:

6.  训练SVM 的最小时间复杂度为 O(n2),那么一下哪种数据集不适合用 SVM?()

A. 大数据集

B. 小数据集

C. 中等大小数据集 

D. 和数据集大小无关

答案是:

7.  逻辑回归与多元回归分析有哪些不同?(D)

A. 逻辑回归预测某事件发生的概率

B. 逻辑回归有较高的拟合效果

C. 逻辑回归回归系数的评估

D. 以上全选

答案是:

8.  数据离散化可以采用(      )方式。

A. 等宽或者等频 

B. 插补

C. 抽样

D. 查询

答案是:

9.  

关于下面的决策树说法不正确的是(       )

A. 此决策树的构建基于样本量为100的样本

B. 此样本是三分类的目标变量

C. 第一层的节点的最优划分是Petal.Length≤2.45

D. Petal.Length≤2.45的节点还可以继续划分

答案是:

10.  下面关于ID3算法中说法错误的是()

A. ID3 算法要求特征必须离散化

B. 信息增益可以用熵,而不是 GINI系数来计算

C. 选取信息增益最大的特征,作为树的根节点

D. ID3 算法是一个二叉树模型

答案是:

11.  一般,k-NN最近邻方法在( )的情况下效果较好

A. 样本较多但典型性不好

B. 样本较少但典型性好

C. 样本呈团状分布

D. 样本呈链状分布

答案是:

12.  

使

用一

运营

套餐情况

数据

进行

分析后发现,

通来

电提醒业务

的用

都倾

向于

邮件功

,这种解决问题的方法方法属于数据挖掘的哪类方法?

( )

使用一 份某运营商用户订购套餐情况数据进行分析后发现,开通来 电提醒业务的用户也都倾向于开通邮件功能,这种解决问题的方法方法属于数据挖掘的哪类方法?(    )

A. 关联规则发现

B. 聚类

C. 分类

D. 自然语言处理

答案是:

13.  典型相关分析中的综合变量选择问题通常采用(     )来度量。

A.  特征根贡献率

B. 特征向量

C. 相关系数

D. p值

答案是:

1.  影响聚类算法效果的主要原因有()

A. 特征选取

B. 模式相似性测度

C. 分类准则

D. 已知类别的样本质量

答案是:

2.  在统计模式分类问题中,当先验概率未知时,可以使用()

A. 最小损失准则

B. 最小最大损失准则

C. 最小误判概率准则

D. N-P判决

答案是:

3.  下列哪些方法可以用来对高维数据进行降维()

A. LASSO

B. 主成分分析法

C. 聚类分析

D. 小波分析法

答案是:

1.  K近邻算法的目标是从大量的数据中通过算法搜索隐藏于其中的知识。

A. 错误

B. 正确

答案是:

2.  K近邻均值滤波去椒盐噪声效果优于均值滤波。

A. 错误

B. 正确

答案是:

3.  k-means算法、EM算法是建立在凸球形的样本空间上的聚类方法。

A. 错误

B. 正确

答案是:

4.  k近邻法(k-NearestNeighbor,kNN)是一种比较成熟也是最简单的机器学习算法,可以用于分类,但不能用于回归方法。

A. 错误

B. 正确

答案是:

1.  数据预处理方法主要有()

A. 数据清洗

B. 数据集成

C. 数据归约

D. 数据交换

E. 以上都是

答案是:

2.  某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?()

A. 关联规则发现

B. 聚类

C. 分类

D. 自然语言处理

答案是:

3.  ( )的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果。

A. 数据清洗

B. 数据集成

C. 数据变换

D. 数据归约

答案是:

4.  数据仓库的最终目的是()。

A. 为用户和业务部门提供决策支持

B. 开发数据仓库的应用分析

C. 建立数据仓库逻辑模型

D. 收集业务需求

答案是:

5.  

请问在

请问在Python中缺失值通常用(      )来记号

A. NaN

B. ?

C. NA

D. na

答案是:

6.  

以下两种描述分别对应哪两种对分类算法的评价标准? ()

  (a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。
  (b)描述有多少比例的小偷给警察抓了的标准。

A. Precision,Recall

B. Recall,Precision

C. Precision,ROC

D. Recall,ROC

答案是:

7.  1950年1月3日到2008年4月11日的标准普尔指数值有一种无固定规律的交替波动,这种变动被称为()

A. 长期趋势变动

B. 季节变动

C. 循环波动

D. 不规则变动

答案是:

8.  假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内? ()

A. 第一个

B. 第二个

C. 第三个

D. 第四个 

答案是:

9.  请问异常点通常出现在盒须图的( )。

A. 中部

B. 上部

C. 下部

D. 两端

答案是:

10.  大数据的最明显特点是

A. 数据类型多样

B. 数据规模大

C. 数据价值密度高

D. 数据处理速度快

答案是:

11.  下面哪个不属于数据的属性类型:()

A. 标称

B. 序数

C. 区间

D. 相异

答案是:

12.  数据预处理方法主要有

A. 数据清洗

B. 数据集成

C. 数据归约

D. 数据交换

E. 以上都是

答案是:

13.  建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?()

A. 根据内容检索

B. 建模描述

C. 预测建模

D. 寻找模式和规则

答案是:

14.  下列关于计算机存储容量单位的说法中,错误的是()。

A. 一个字节能够容纳一个英文字符

B. .一个汉字需要一个字节的存储空间

C. 基本单位是字节(Byte)

D. 1KB<1MB<1GB

答案是:

15.  回归模型评价时,通常采用()损失.

A. 0-1

B. 指数

C.

负二项

负二项

负二项

负二项

D. 平方

答案是:

16.  将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?

A. 频繁模式挖掘

B. 分类和预测

C. 数据预处理

D. 数据流挖掘

答案是:

17.  平稳的时间序列:( )

A. 均值随时间变化而变化

B. 协方差随时间变化而变化

C.

分布与时间无关

分布与时间无关

D. 分布与时间有关

答案是:

18.  在数据清理中,下面哪个不是处理缺失值的方法?()

A. 估算

B. 整例删除

C. 变量删除

D. 成对删除

答案是:

19.  当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?()

A. 分类

B. 聚类

C. 关联分析

D. 隐马尔可夫链

答案是:

20.  下面哪种不属于数据预处理的方法? ()

A. 变量代换

B. 离散化

C. 聚集

D. 估计遗漏值

答案是:

电话咨询