题库试卷

【百年教育职业培训中心】机器学习-章节资料考试资料-温州大学

来源：百年教育职业培训中心　更新时间：2022-06-28 16:46:17

报名本机构合作学校，赠送复习资料，复习课程，确保录取。并且可以申请学校奖学金500元～1500元不等！答案：微信搜索【渝粤教育】公众号引言课后测试1、【单选题】哪一个是机器学习的合理定义？A、机器学习

报名本机构合作学校，赠送复习资料，复习课程，确保录取。并且可以申请学校奖学金500元～1500元不等！

答案：微信搜索【渝粤教育】公众号

引言课后测试

1、【单选题】哪一个是机器学习的合理定义？

A、机器学习从标记的数据中学习

B、机器学习能使计算机能够在没有明确编程的情况下学习

C、机器学习是计算机编程的科学

D、机器学习是允许机器人智能行动的领域

2、【单选题】一个计算机程序从经验E中学习任务T，并用P来衡量表现。并且，T的表现P随着经验E的增加而提高。假设我们给一个学习算法输入了很多历史天气的数据，让它学会预测天气。什么是P的合理选择？

A、计算大量历史气象数据的过程

B、正确预测未来日期天气的概率

C、天气预报任务

D、以上都不

3、【单选题】回归问题和分类问题的区别是什么？

A、回归问题有标签，分类问题没有

B、回归问题输出值是离散的，分类问题输出值是连续的

C、回归问题输出值是连续的，分类问题输出值是离散的

D、回归问题与分类问题在输入属性值上要求不同

4、【单选题】以下关于特征选择的说法正确的是？

A、选择的特征越多越好

B、选择的特征越少越好

C、选择的特征需尽可能反映不同事物之间的差异

D、以上说法均不对

5、【单选题】一个包含n类的多分类问题，若采用一对剩余的方法，需要拆分成多少次？

A、1

B、n-1

C、n

D、n+1

6、【单选题】机器学习方法传统上可以分为( )类。

A、3

B、4

C、7

D、2

7、【单选题】哪些机器学习模型经过训练，能够根据其行为获得的奖励和反馈做出一系列决策？

A、监督学习

B、无监督学习

C、强化学习

D、以上全部

8、【单选题】机器学习这个术语是由( )定义的？

A、James Gosling

B、Arthur Samuel

C、Guido van Rossum

D、以上都不是

9、【单选题】哪种开发语言最适合机器学习？( )

A、C

B、Java

C、Python

D、HTML

10、【单选题】 ( )是机器学习的一部分，与神经网络一起工作。

A、人工智能

B、深度学习

C、A和B

D、以上都不是

11、【单选题】 ( )是可用于标记数据的机器学习算法。

A、回归算法

B、聚类算法

C、关联规则算法

D、以上都不是

12、【单选题】谷歌新闻每天收集非常多的新闻，并运用( )方法再将这些新闻分组，组成若干类有关联的新闻。于是，搜索时同一组新闻事件往往隶属同一主题的，所以显示到一起。

A、回归

B、分类

C、聚类

D、关联规则

13、【多选题】下列哪些学习问题不属于监督学习？( )

A、聚类

B、降维

C、分类

D、回归

14、【多选题】下列哪些学习问题不属于监督学习？( )

A、回归

B、分类

C、聚类

D、关联规则

15、【多选题】机器学习的方法由( )等几个要素构成。

A、模型

B、损失函数

C、优化算法

D、模型评估指标

16、【多选题】对于非概率模型而言，可按照判别函数线性与否分成线性模型与非线性模型。下面哪些模型属于线性模型？

A、K-means

B、k近邻

C、感知机

D、AdaBoost

17、【判断题】朴素贝叶斯属于概率模型。

A、正确

B、错误

18、【判断题】根据肿瘤的体积、患者的年龄来判断良性或恶性，这是一个回归问题。

A、正确

B、错误

19、【判断题】大部分的机器学习工程中，数据搜集、数据清洗、特征工程这三个步骤绝大部分时间，而数据建模，占总时间比较少。

A、正确

B、错误

20、【判断题】已知你朋友的信息，比如经常发email的联系人，或是你微博的好友、微信的朋友圈，我们可运用聚类方法自动地给朋友进行分组，做到让每组里的人们彼此都熟识。

A、正确

B、错误

回归课后测试

1、【单选题】以下哪组变量之间存在线性回归关系？

A、学生的性别与他的成绩

B、儿子的身高与父亲的身高

C、正方形的边长与面积

D、正三角形的边长与周长

2、【单选题】回归问题和分类问题的区别是？

A、回归问题有标签，分类问题没有

B、回归问题输出值是离散的，分类问题输出值是连续的

C、回归问题输出值是连续的，分类问题输出值是离散的

D、回归问题与分类问题在输入属性值上要求不同

3、【单选题】以下说法错误的是？

A、残差是预测值与真实值之间的差值

B、损失函数越小，模型训练得一定越好

C、正则项的目的是为了避免模型过拟合

D、最小二乘法不需要选择学习率

4、【单选题】哪些算法不需要数据归一化？

A、kNN

B、k-means

C、SVM

D、决策树

5、【单选题】以下哪些方法不能用于处理欠拟合？

A、增大正则化系数

B、增加新的特征

C、增加模型复杂度

D、对特征进行变换，使用组合特征或高维特征

6、【单选题】以下哪些方法不能用于处理过拟合？

A、对数据进行清洗

B、增大训练数据的量

C、利用正则化技术

D、增加数据属性的复杂度

7、【单选题】下列关于线性回归分析中的残差（Residuals）说法正确的是？

A、残差均值总是为零

B、残差均值总是小于零

C、残差均值总是大于零

D、以上说法都不对

8、【单选题】为了观察测试 Y 与 X 之间的线性关系，X 是连续变量，使用下列哪种图形比较适合？

A、散点图

B、柱形图

C、直方图

D、以上都不对

9、【单选题】假如你在训练一个线性回归模型，则：1. 如果数据量较少，容易发生过拟合。2. 如果假设空间较小，容易发生过拟合。关于这两句话，下列说法正确的是？

A、1 和 2 都错误

B、1 正确，2 错误

C、1 错误，2 正确

D、1 和 2 都正确

10、【单选题】关于特征选择，下列对 Ridge 回归和 Lasso 回归说法正确的是？

A、Ridge 回归适用于特征选择

B、Lasso 回归适用于特征选择

C、两个都适用于特征选择

D、以上说法都不对

11、【单选题】构建一个最简单的线性回归模型需要几个系数（只有一个特征）？

A、1 个

B、2 个

C、3 个

D、4 个

12、【单选题】向量x=[1,2,3,4,-9,0]的L1范数是多少？

A、1

B、19

C、6

D、<img src="http://edu-image.nosdn.127.net/_PhotoUploadUtils_5950d630-5d2e-499f-af90-40b60f9b95f5.png" />

13、【多选题】以下哪些是使用数据规范化(特征缩放)的原因？

A、它通过降低梯度下降的每次迭代的计算成本来加速梯度下降

B、它通过减少迭代次数来获得一个好的解，从而加快了梯度下降的速度

C、它不能防止梯度下降陷入局部最优

D、它防止矩阵 <img src="http://edu-image.nosdn.127.net/_PhotoUploadUtils_8fad5801-2a7f-431b-b58b-14df2564a158.png" />不可逆(奇异/退化)

14、【多选题】线性回归中，我们可以使用最小二乘法来求解系数，下列关于最小二乘法说法正确的是?( )

A、只适用于线性模型，不适合逻辑回归模型等其他模型

B、不需要选择学习率

C、当特征数量很多的时候，运算速度会很慢

D、不需要迭代训练

15、【多选题】欠拟合的处理主要有哪些方式：()

A、增加模型复杂度

B、减小正则化系数

C、增大正则化系数

D、添加新特征

16、【多选题】假如使用一个较复杂的回归模型来拟合样本数据，使用 Ridge回归，调试正则化参数，来降低模型复杂度，若正则化系数较大时，关于偏差(bias)和方差(variance)，下列说法正确的是?( )

A、偏差减小

B、偏差增大

C、方差减小

D、方差增大

17、【判断题】如果两个变量相关，那么它们一定是线性关系。

A、正确

B、错误

18、【判断题】随机梯度下降，每次迭代时候，使用一个样本。

A、正确

B、错误

19、【判断题】L2正则化往往用于防止过拟合，而L1正则化往往用于特征选择。

A、正确

B、错误

20、【判断题】过拟合的处理可以通过减小正则化系数。

A、正确

B、错误

逻辑回归课后测验

1、【单选题】一监狱人脸识别准入系统用来识别待进入人员的身份，此系统一共包括识别4种不同的人员：狱警，小偷，送餐员，其他。下面哪种学习方法最适合此种应用需求：

A、二分类问题

B、多分类问题

C、回归问题

D、聚类问题

2、【单选题】以下关于分类问题的说法错误的是？

A、分类属于监督学习

B、分类问题输入属性必须是离散的

C、多分类问题可以被拆分为多个二分类问题

D、回归问题在一定条件下可被转化为多分类问题

3、【单选题】以下关于逻辑回归与线性回归问题的描述错误的是（）

A、逻辑回归用于处理分类问题，线性回归用于处理回归问题

B、线性回归要求输入输出值呈线性关系，逻辑回归不要求

C、逻辑回归一般要求变量服从正态分布，线性回归一般不要求

D、线性回归计算方法一般是最小二乘法，逻辑回归的参数计算方法是似然估计法。

4、【单选题】以下关于sigmoid函数的优点说法错误的是？

A、函数处处连续，便于求导

B、可以用于处理二分类问题

C、在深层次神经网络反馈传输中，不易出现梯度消失

D、可以压缩数据值到[0,1]之间，便于后续处理

5、【单选题】逻辑回归的损失函数是哪个？

A、MSE

B、交叉熵(Cross-Entropy)损失函数

C、MAE

D、RMSE

6、【单选题】下面哪一项不是Sigmoid的特点？

A、当σ(z)大于等于0.5时，预测 y=1

B、当σ(z)小于0.5时，预测 y=0

C、当σ(z)小于0.5时，预测 y=-1

D、σ(z)的范围为(0,1)

7、【单选题】下列哪一项不是逻辑回归的优点？

A、处理非线性数据较容易

B、模型形式简单

C、资源占用少

D、可解释性好

8、【单选题】假设有三类数据，用OVR方法需要分类几次才能完成？

A、1

B、2

C、3

D、4

9、【单选题】以下哪些不是二分类问题？

A、根据肿瘤的体积、患者的年龄来判断良性或恶性？

B、或者根据用户的年龄、职业、存款数量来判断信用卡是否会违约？

C、身高1.85m，体重100kg的男人穿什么尺码的T恤？

D、根据一个人的身高和体重判断他(她)的性别。

10、【单选题】逻辑回归通常采用哪种正则化方式？

A、Elastic Net

B、L1正则化

C、L2正则化

D、Dropout正则化

11、【单选题】假设使用逻辑回归进行多类别分类，使用 OVR 分类法。下列说法正确的是？

A、对于 n 类别，需要训练 n 个模型

B、对于 n 类别，需要训练 n-1 个模型

C、对于 n 类别，只需要训练 1 个模型

D、以上说法都不对

12、【单选题】你正在训练一个分类逻辑回归模型。以下哪项陈述是正确的？选出所有正确项

A、将正则化引入到模型中，总是能在训练集上获得相同或更好的性能

B、在模型中添加许多新特性有助于防止训练集过度拟合

C、将正则化引入到模型中，对于训练集中没有的样本，总是可以获得相同或更好的性能

D、向模型中添加新特征总是会在训练集上获得相同或更好的性能

13、【多选题】以下哪项陈述是正确的？选出所有正确项（）

A、在构建学习算法的第一个版本之前，花大量时间收集大量数据是一个好主意。

B、逻辑回归使用了Sigmoid激活函数

C、使用一个非常大的训练集使得模型不太可能过拟合训练数据。

D、如果您的模型拟合训练集，那么获取更多数据可能会有帮助。

14、【多选题】下面哪些是分类算法？

A、根据肿瘤的体积、患者的年龄来判断良性或恶性？

B、根据用户的年龄、职业、存款数量来判断信用卡是否会违约？

C、身高1.85m，体重100kg的男人穿什么尺码的T恤？

D、根据房屋大小、卫生间数量等特征预估房价

15、【判断题】逻辑回归的激活函数是Sigmoid。

A、正确

B、错误

16、【判断题】逻辑回归分类的精度不够高，因此在业界很少用到这个算法

A、正确

B、错误

17、【判断题】Sigmoid函数的范围是（-1，1）

A、正确

B、错误

18、【判断题】逻辑回归的特征一定是离散的。

A、正确

B、错误

19、【判断题】逻辑回归算法资源占用小，尤其是内存。

A、正确

B、错误

20、【判断题】逻辑回归的损失函数是交叉熵损失

A、正确

B、错误

朴素贝叶斯课后测验

1、【单选题】假设会开车的本科生比例是15%，会开车的研究生比例是23%。若在某大学研究生占学生比例是20%，则会开车的学生是研究生的概率是多少？

A、80%

B、16.6%

C、23%

D、15%

2、【单选题】下列关于朴素贝叶斯的特点说法错误的是（）

A、朴素贝叶斯模型发源于古典数学理论，数学基础坚实

B、朴素贝叶斯模型无需假设特征条件独立

C、朴素贝叶斯处理过程简单，分类速度快

D、朴素贝叶斯对小规模数据表现较好

3、【单选题】以下算法不属于生成模型 ( )

A、朴素贝叶斯模型

B、混合高斯模型

C、隐马尔科夫模型

D、支持向量机

4、【单选题】关于拉普拉斯平滑说法正确的是（）

A、避免了出现概率为0的情况

B、加上拉普拉斯平滑有助于提高学习性能

C、会使得最终结果可能大于1

D、以上说法都不对

5、【单选题】假设X和Y都服从正态分布，那么P(X5,Y0)就是一个（），表示X5,Y0两个条件同时成立的概率，即两个事件共同发生的概率。

A、先验概率

B、后验概率

C、联合概率

D、以上说法都不对

6、【单选题】以下算法属于判别模型的是（）

A、朴素贝叶斯模型

B、深度信念网络

C、隐马尔科夫模型

D、线性回归

7、【单选题】朴素贝叶斯的优点不包括（）

A、算法逻辑简单,易于实现

B、分类过程中时空开销小

C、对缺失数据不太敏感，算法也比较简单，常用于文本分类

D、朴素贝叶斯模型对输入数据的表达形式很敏感

8、【单选题】市场上某商品来自两个工厂，它们市场占有率分别为60%和40%，有两人各自买一件，则买到的来自不同工厂之概率为( )。

A、0.5

B、0.24

C、0.48

D、0.3

9、【单选题】以A表示事件甲种产品畅销，乙种产品滞销，则其对立事件A为（）

A、甲种产品滞销，乙种产品畅销

B、甲，乙两种产品均畅销

C、甲种产品滞销

D、甲种产品滞销或乙种产品畅销

10、【单选题】11. 关于朴素贝叶斯，下列说法错误的是：（）

A、它是一个分类算法

B、朴素的意义在于它的一个天真的假设：所有特征之间是相互独立的

C、它实际上是将多条件下的条件概率转换成了单一条件下的条件概率，简化了计算

D、朴素贝叶斯不需要使用联合概率

11、【单选题】掷二枚骰子，事件A为出现的点数之和等于3的概率为（）

A、1/11

B、1/18

C、1/6

D、都不对

12、【单选题】公司里有一个人穿了运动鞋，推测是男还是女？已知公司里男性30人，女性70人，男性穿运动鞋的有25人，穿拖鞋的有5人，女性穿运动鞋的有40人，穿高跟鞋的有30人。则以下哪项计算错误（）？

A、p(男｜运动鞋)=0.25

B、p(女｜运动鞋)=0.4

C、p(运动鞋｜男性)=25/30

D、p（运动鞋｜女性)=0.4

13、【判断题】根据以往经验和分析得到的概率。在这里，我们用P(Y)来代表在没有训练数据前假设Y拥有的初始概率，因此称其为Y的后验概率，它反映了我们所拥有的关于Y的背景知识。

A、正确

B、错误

14、【判断题】朴素贝叶斯模型假设属性之间相互独立，这个假设在实际应用中往往是不成立的，在属性相关性较小时，朴素贝叶斯性能良好。而在属性个数比较多或者属性之间相关性较大时，分类效果不好。

A、正确

B、错误

15、【判断题】朴素贝叶斯对缺失数据较敏感。

A、正确

B、错误

16、【判断题】判别模型所学内容是决策边界。

A、正确

B、错误

17、【判断题】逻辑回归是生成模型，朴素贝叶斯是判别模型

A、正确

B、错误

18、【判断题】逻辑回归和朴素贝叶斯都有对属性特征独立的要求

A、正确

B、错误

19、【判断题】朴素贝叶斯法的基本假设是条件独立性。

A、正确

B、错误

20、【判断题】朴素贝叶斯适用于小规模数据集，逻辑回归适用于大规模数据集。

A、正确

B、错误

机器学习实践课后测验

1、【单选题】以下关于训练集、验证集和测试集说法不正确的是( )。

A、测试集是纯粹是用于测试模型泛化能力

B、训练集是用来训练以及评估模型性能

C、验证集用于调整模型参数

D、以上说法都不对

2、【单选题】当数据分布不平衡时，我们可采取的措施不包括( )。

A、对数据分布较少的类别过采样

B、对数据分布较多的类别欠采样

C、对数据分布较多的类别赋予更大的权重

D、对数据分布较少的类别赋予更大的权重

3、【单选题】假设有100张照片，其中，猫的照片有60张，狗的照片是40张。识别结果：TP=40，FN=20，FP=10，TN=30，则可以得到：( )。

A、Accuracy=0.8

B、Precision=0.8

C、Recall=0.8

D、以上都不对

4、【单选题】关于数据规范化，下列说法中错误的是( )。

A、包含标准化和归一化

B、标准化在任何场景下受异常值的影响都很小

C、归一化利用了样本中的最大值和最小值

D、标准化实际上是将数据在样本的标准差上做了等比例的缩放操作

5、【单选题】下列哪种方法可以用来缓解过拟合的产生：( )。

A、增加更多的特征

B、正则化

C、增加模型的复杂度

D、以上都是

6、【单选题】以下关于ROC和PR曲线说法不正确的是 ( )。

A、ROC曲线兼顾正例与负例，PR曲线完全聚焦于正例

B、如果想测试不同类别分布下分类器性能的影响，ROC曲线更为适合

C、ROC曲线不会随着类别分布的改变而改变

D、类别不平衡问题中，ROC曲线比PR曲线估计效果要差

7、【单选题】以下关于偏差(Bias)和方差(Variance)说法正确的是 ( )。

A、方差描述的是预测值与真实值之间的差别

B、偏差描述的是预测值的变化范围

C、获取更多的训练数据可解决高方差的问题

D、获取更多的特征能解决高方差的问题

8、【单选题】关于L1正则化和L2正则化说法错误的是 ( )。

A、L1正则化的功能是使权重稀疏

B、L2正则化的功能是防止过拟合

C、L1正则化比L2正则化使用更广泛

D、L1正则化无法有效减低数据存储量

9、【单选题】随着训练样本的数量越来越大，则该数据训练的模型将具有：( )。

A、低方差

B、高方差

C、相同方差

D、无法判断

10、【单选题】随着训练样本的数量越来越大，则该数据训练的模型将具有：( )。

A、低偏差

B、高偏差

C、相同偏差

D、无法判断

11、【单选题】关于特征选择，下列对Ridge回归和Lasso回归的说法正确的是：( )。

A、Ridge回归适用于特征选择

B、Lasso回归适用于特征选择

C、两个都适用于特征选择

D、以上说法都不对

12、【单选题】一个正负样本不平衡问题(正样本99%，负样本 1%)。假如在这个非平衡的数据集上建立一个模型，得到训练样本的正确率是 99%，则下列说法正确的是？( )

A、模型正确率很高，不需要优化模型了

B、模型正确率并不能反映模型的真实效果

C、无法对模型做出好坏评价

D、以上说法都不对

13、【多选题】以下关于交叉验证说法正确的是 ( )。

A、交叉验证可利用模型选择避免过拟合的情况

B、交叉验证可对模型性能合理评估

C、交叉验证大大增加了计算量

D、以上说法都不对

14、【多选题】评价指标中，精确率(Precision)的计算需要哪些数值 ( )。

A、TP

B、TN

C、FP

D、FN

15、【多选题】评价指标中，召回率(Recall)的计算需要哪些数值 ( )。

A、TP

B、TN

C、FP

D、FN

16、【多选题】评估完模型之后，发现模型存在高偏差(high bias)，应该如何解决？( )

A、减少模型的特征数量

B、增加模型的特征数量

C、增加样本数量

D、尝试减少正则化系数

17、【判断题】特征空间越大，过拟合的可能性越大。

A、正确

B、错误

18、【判断题】L2 正则化得到的解更加稀疏。

A、正确

B、错误

19、【判断题】SMOTE算法是用了上采样的方法。

A、正确

B、错误

20、【判断题】100万条数据划分训练集、验证集、测试集，数据可以这样划分：98%，1%，1% 。

A、正确

B、错误

KNN算法课后测验

1、【单选题】下列哪个距离度量不在KNN算法中体现：( )。

A、切比雪夫距离

B、欧氏距离

C、余弦相似度

D、曼哈顿距离

2、【单选题】下列选项中，关于KNN算法说法不正确是：( )。

A、能找出与待预测样本相近的K个样本

B、默认使用欧氏距离度量

C、实现过程相对简单，但是可解释性不强

D、效率很高

3、【单选题】以下距离度量方法中，在城市道路里，要从一个十字路口开车到另外一个十字路口的距离是： ( )。

A、夹角余弦

B、切比雪夫距离

C、曼哈顿距离

D、欧氏距离

4、【单选题】以下关于KD树的说法错误的是 ( )。

A、KD树是一种对k维空间的数据进行存储以便于快速检索的树形数据结构

B、KD树主要用于多维空间关键数据的检索

C、KD树节点与k维中垂直与超平面的那一维有关

D、所有x值小于指定值的节点会出现在右子树

5、【单选题】利用KD树进行搜索时，正确的方式是 ( )。

A、查询数据从子节点开始

B、若数据小于对应节点中k维度的值，则访问左节点

C、回溯过程是为了找距离较远的点

D、回溯的判断过程是从上往下进行的

6、【单选题】以下哪项是KNN算法的缺点？( )

A、低精度

B、对异常值不敏感

C、计算成本高

D、需要的内存非常少

7、【单选题】关于余弦相似度，不正确的是( )。

A、余弦相似度的范围为[-1,1]

B、余弦相似度的结果和向量的长度无关

C、余弦相似度为-1时候，两个向量完全不相关

D、余弦相似度为1的时候，两个向量完全相关

8、【单选题】KD树(K-Dimension Tree)的描述中，不正确的是( )。

A、KD树是二叉树

B、KD树可以用更高的效率来对空间进行划分

C、KD树的结构非常适合寻找最近邻居和碰撞检测

D、KD树切分时，从方差小的维度开始切分

9、【单选题】假设有 6 个二维数据点：D={(2,3),(5,7),(9,6),(4,5),(6,4),(7,2)}，第一次切分时候，切分线为( )。

A、x=5

B、x=6

C、y=5

D、y=6

10、【单选题】KNN算法在什么情况下效果较好？( )

A、样本较多但典型性不好

B、样本较少但典型性好

C、样本呈团状分布

D、样本呈链状分布

11、【单选题】关于KNN算法的描述，不正确的是( )。

A、可以用于分类

B、可以用于回归

C、距离度量的方式通常用曼哈顿距离

D、K值的选择一般选择一个较小的值

12、【单选题】两个向量的长度分别为1和2，两者之间的夹角为60度，则以下选项错误的是( )。

A、余弦相似度为0.5

B、余弦相似度为正

C、余弦相似度没法计算，因为没给出具体坐标值

D、余弦相似度的值与向量的长度无关，只和向量之间的夹角有关

13、【多选题】影响KNN算法效果的主要因素包括( )。

A、K的值

B、距离度量方式

C、决策规则

D、最邻近数据的距离

14、【多选题】以下关于KNN说法正确的是 (多选)( )。

A、计算复杂度低

B、对数据没有假设

C、对异常值不敏感

D、可解释性好

15、【多选题】闵可夫斯基距离中的p取1或2时的闵氏距离是最为常用的，以下哪项是正确的:( )。

A、p取1时是曼哈顿距离

B、p取2时是欧氏距离

C、p取无穷时是切比雪夫距离

D、闵可夫斯基空间不同于牛顿力学的平坦空间

16、【多选题】KNN算法的缺点包括以下几点？( )

A、可解释性差，无法给出决策树那样的规则

B、对训练数据依赖度特别大，当样本不平衡的时候，对少数类的预测准确率低

C、对异常值敏感

D、计算复杂性高；空间复杂性高，尤其是特征数非常多的时候

17、【判断题】两个向量的余弦相似度越接近1，说明两者越相似。

A、正确

B、错误

18、【判断题】k近邻法(k-Nearest Neighbor,kNN)是一种比较成熟也是最简单的机器学习算法，可以用于分类，但不能用于回归方法。

A、正确

B、错误

19、【判断题】KNN没有显示的训练过程，它在训练阶段只是把数据保存下来，训练时间开销为0，等收到测试样本后进行处理。

A、正确

B、错误

20、【判断题】KNN分类的时候，对新的样本，根据其k个最近邻的训练样本的类别，通过多数表决等方式进行预测。

A、正确

B、错误

决策树课后测验

1、【单选题】以下关于决策树特点分析的说法错误的有 ( )。

A、推理过程容易理解，计算简单

B、算法考虑了数据属性之间的相关性

C、算法自动忽略了对模型没有贡献的属性变量

D、算法容易造成过拟合

2、【单选题】以下关于决策树原理介绍错误的有 ( )。

A、决策树算法属于无监督学习

B、决策树算法本质上是贪心算法

C、决策树生成过程中需要用到分割法

D、决策树决策过程从根节点开始

3、【单选题】我们想要在大数据集上训练决策树模型，为了使用较少的时间，可以：( )。

A、增加树的深度

B、增大学习率

C、减少树的深度

D、减少树的数量

4、【单选题】以下关于决策树算法说法错误的是 ( )。

A、ID3算法选择信息增益最大的特征作为当前决策节点

B、C4.5算法选择信息增益率来选择属性

C、C4.5算法不能用于处理不完整数据

D、CART算法选择基尼系数来选择属性

5、【单选题】以下关于剪枝操作说法正确的是 ( )。

A、CART采用的是悲观策略的预剪枝

B、ID3没有剪枝策略

C、C4.5采用的是基于代价函数的后剪枝

D、以上说法都不对

6、【单选题】C4.5选择属性用的是( )。

A、信息增益

B、信息增益率

C、交叉熵

D、信息熵

7、【单选题】7.哪种决策树没有剪枝操作( )。

A、C4.5

B、CART

C、ID3

D、以上都不对

8、【单选题】以下那种说法是错误的( )。

A、信息增益 = 信息熵 - 条件熵

B、一个系统越是混乱，随机变量的不确定性就越大，信息熵就越高

C、一个系统越是有序，信息熵就越低

D、中国足球队战胜巴西足球队的信息熵要小于中国乒乓球队战胜巴西乒乓球队的信息熵

9、【单选题】ID3 算法的缺点不包括( )。

A、ID3 没有剪枝策略，容易过拟合

B、信息增益准则对可取值数目较多的特征有所偏好，类似“编号”的特征其信息增益接近于 1

C、既能用于处理离散分布的特征，也能用于连续分布的特征处理

D、没有考虑缺失值

10、【单选题】关于CART算法，错误的是( )。

A、可以处理样本不平衡问题

B、CART 分类树采用基尼系数的大小来度量特征的各个划分点

C、CART算法既可以处理分类问题，也可以处理回归问题

D、CART算法采用信息增益率的大小来度量特征的各个划分点

11、【单选题】关于C4.5算法，错误的是( )。

A、C4.5算法采用基尼系数的大小来度量特征的各个划分点

B、C4.5算法可以处理非离散的数据

C、C4.5算法引入悲观剪枝策略进行后剪枝

D、C4.5 算法最大的特点是克服了 ID3 对特征数目的偏重这一缺点

12、【单选题】ID3选择属性用的是( )。

A、信息增益

B、信息增益率

C、交叉熵

D、信息熵

13、【多选题】决策树有哪些代表算法 ( )。

A、CNN

B、C4.5

C、CART

D、ID3

14、【多选题】以下那种算法需要对数据进行归一化或者标准化( )。

A、逻辑回归

B、决策树

C、KNN

D、线性回归

15、【多选题】关于剪枝，以下算法正确的是：( )。

A、决策树剪枝的基本策略有预剪枝和后剪枝

B、ID3算法没有剪枝操作

C、剪枝是防止过拟合的手段

D、C4.5算法没有剪枝操作

16、【多选题】决策树的说法正确的是( )。

A、它易于理解、可解释性强

B、其可作为分类算法，也可用于回归模型

C、CART使用的是二叉树

D、不能处理连续型特征

17、【判断题】ID3 算法的核心思想就是以信息增益来度量特征选择，选择信息增益最大的特征进行分裂。

A、正确

B、错误

18、【判断题】C4.5是通过代价复杂度剪枝。

A、正确

B、错误

19、【判断题】ID3 算法只能用于处理离散分布的特征。

A、正确

B、错误

20、【判断题】ID3和C4.5和CART都只能用于分类问题，不能用于回归问题。

A、正确

B、错误

集成学习课后测验

1、【单选题】在随机森林里，你生成了几百颗树(T1, T2 …..Tn)，然后对这些树的结果进行综合，下面关于随机森林中每颗树的说法正确的是？( )

A、每棵树是通过数据集的子集和特征的子集构建的

B、每棵树是通过所有的特征构建的

C、每棵树是通过所有的数据构建的

D、以上都不对

2、【单选题】以下关于集成学习特性说法错误的是( )。

A、集成学习需要各个弱分类器之间具备一定的差异性

B、弱分类器的错误率不能高于0.5

C、集成多个线性分类器也无法解决非线性分类问题

D、当训练数据集较大时，可分为多个子集，分别进行训练分类器再合成

3、【单选题】以下关于随机森林(Random Forest)说法正确的是( )。

A、随机森林由若干决策树组成，决策树之间存在关联性

B、随机森林学习过程分为选择样本、选择特征、构建决策树、投票四个部分

C、随机森林算法容易陷入过拟合

D、随机森林构建决策树时，是无放回的选取训练数据

4、【单选题】以下关于AdaBoost算法说法正确的是( )。

A、AdaBoost使用的损失函数是指数函数

B、在训练过程中，若某个样本点已经被准确分类，则在构造下一个训练集时，该样本的权重会下降

C、在投票时，分类误差小的弱分类器权重较小

D、以上说法都不对

5、【单选题】以下关于GBDT算法说法错误的是( )。

A、GBDT是由多棵回归树组成

B、GBDT泛化能力较强

C、GBDT使用的是放回采样

D、GBDT需要使用剪枝操作

6、【单选题】XGBoost算法说法错误的是 ( )

A、XGBoost算法的目标函数采用了二阶泰勒展开

B、XGBoost算法的速度要比GBDT快

C、XGBoost算法要求对数据进行归一化或者标准化

D、XGBoost算法的效果通常优于传统的机器学习模型

7、【单选题】关于Bagging方法，以下说法错误的是( )

A、对各弱分类器的训练可以通过并行方式完成

B、最终分类结果是由各弱分类器以一定的方式投票决定的

C、由于各分类器是独立的，弱分类器的训练数据也是相互独立的

D、对各弱分类器的训练可以通过串行方式进行

8、【单选题】Adboost的优点不包括( )

A、分类精度高

B、对异常点敏感，异常点会获得较高权重

C、可以用各种回归分类模型来构建弱学习器，非常灵活

D、不容易发生过拟合

9、【单选题】LightGBM与XGBoost相比，主要的优势不包括( )

A、更快的训练速度

B、更低的内存消耗

C、更好的准确率

D、采用二阶泰勒展开加快收敛

10、【单选题】随机森林和GBDT的描述不正确的是( )

A、两者都是由多棵树组成，最终的结果都是由多棵树一起决定

B、两者都是使用了Boosting思想

C、随机森林最终是多棵树进行多数表决(回归问题是取平均)，而GBDT是加权融合

D、随机森林每次迭代的样本是从全部训练集中有放回抽样形成的，而GBDT每次使用全部样本

11、【单选题】以下那种算法不是集成学习算法( )

A、随机森林

B、AdaBoost

C、XGBoost

D、决策树

12、【单选题】GBDT算法的描述，不正确的是( )

A、决策树+Boosting=GBDT

B、GBDT算法主要是用了Boosting方法

C、GBDT与AdaBoost 的对比，都是 Boosting 家族成员，使用弱分类器；都使用前向分步算法

D、梯度提升算法通过迭代地选择一个梯度方向上的基函数来逐渐逼近局部极小值

13、【多选题】集成学习有以下哪几种代表算法 (多选)( )。

A、随机森林

B、AdaBoost

C、SVM

D、K-means

14、【多选题】下面关于随机森林和梯度提升集成方法的说法哪个是正确的？(多选) ( )

A、这两种方法都可以用来做分类

B、随机森林用来做分类，梯度提升用来做回归

C、随机森林用来做回归，梯度提升用来做分类

D、两种方法都可以用来做回归

15、【多选题】LightGBM与XGBoost相比，主要有以下几个改进：(多选) ( )

A、基于梯度的单边采样算法(Gradient-based One-Side Sampling, GOSS)

B、互斥特征捆绑算法(Exclusive Feature Bundling, EFB)

C、直方图算法(Histogram)

D、基于最大深度的 Leaf-wise 的垂直生长算法

16、【多选题】GBDT由哪三个概念组成：( )

A、Regression Decision Tree(即 DT)

B、Gradient Boosting(即 GB)

C、Shrinkage(缩减)

D、Bootstrap(自助采样法)

17、【判断题】XGBoost对损失函数做了二阶泰勒展开，GBDT只用了一阶导数信息，并且XGBoost还支持自定义损失函数，只要损失函数一阶、二阶可导。( )

A、正确

B、错误

18、【判断题】集成学习的数据不需要归一化或者标准化。

A、正确

B、错误

19、【判断题】LightGBM在建树过程中，采用基于最大深度的 Leaf-wise 的垂直生长算法。

A、正确

B、错误

20、【判断题】随机森林和GBDT都是使用了Bagging思想。

A、正确

B、错误

【百年教育职业培训中心】机器学习-章节资料考试资料-温州大学

来源：百年教育职业培训中心 更新时间：2022-06-28 16:46:17

来源：百年教育职业培训中心　更新时间：2022-06-28 16:46:17