报名本机构合作学校,赠送复习资料,复习课程,确保录取。并且可以申请学校奖学金500元~1500元不等!
第一单元测验
1、【单选题】数据挖掘又称从数据中发现知识,后者英文简称为( )。
A、KPP
B、KDP
C、KDD
D、KPD
2、【单选题】数据挖掘又称从数据中发现知识,前者英文简称为( )。
A、KPP
B、DM
C、KDD
D、DD
3、【单选题】一般数据挖掘的流程顺序,下列正确的是( )。①选择数据挖掘的技术、功能和合适的算法②选择数据,数据清洗和预处理③了解应用领域,了解相关的知识和应用目标④寻找感兴趣的模式、模式评估、知识表示⑤创建目标数据集
A、③④①⑤②
B、⑤④②①③
C、③②⑤①④
D、③⑤②①④
4、【单选题】结构化的数据是指一些数据通过统一的( )的形式存储的,这类数据我们称为结构化的数据。
A、文档
B、二维表格
C、图像
D、声音
5、【单选题】数值预测用于连续变量的取值,常用的预测方法是( )。
A、回归分析
B、聚类
C、关联
D、分类
6、【单选题】下列应用场景不属于分类的是( )。
A、对信用卡申请者判断其信誉高低
B、医生根据患者的症状判断所患疾病类型
C、推广新产品时预测已有客户是否对新产品感兴趣
D、为了解用户特点,公司将客户分群
7、【单选题】Python语言的创始人是( )。
A、 Guido van Rossum
B、Bill Gates
C、Sergey Brin
D、Larry Page
8、【单选题】Python科学计算的基本包是()。
A、Numpy
B、Pandas
C、Scikit-learn
D、 Matplotlib
9、【单选题】以下Python包中,绘图功能最强大的是()。
A、Matplotlib
B、Pandas
C、Scikit-learn
D、 Numpy
10、【单选题】以下Python包中,最适合用于机器学习的是()。
A、Scikit-learn
B、Pandas
C、Numpy
D、Matplotlib
11、【单选题】以下Python包中,提供了DataFrame数据类型的是()。
A、Pandas
B、Scikit-learn
C、Numpy
D、 Matplotlib
12、【单选题】为了避免包的依赖关系和系统兼容性等方面出现问题,本课程推荐的Python安装方式为()。
A、通过Anaconda安装
B、直接下载Python安装
C、通过浏览器查找处理过的Python安装包
D、直接安装Pycharm
13、【多选题】数据挖掘包括下面哪些方法( )。
A、分类
B、 聚类
C、关联
D、 异常发现
14、【多选题】数据挖掘和哪些学科领域有关系( )。
A、统计
B、机器学习
C、数据库
D、优化
15、【判断题】聚类针对有标签的数据。
A、正确
B、错误
16、【判断题】分类和回归都可用于预测,分类的输出是离散的类别值。
A、正确
B、错误
17、【判断题】分类就是根据物以类聚的原理,将没有类别的对象根据对象的特征自动聚成不同簇的过程。
A、正确
B、错误
18、【判断题】序列分析经常会用在购物篮分析中。
A、正确
B、错误
19、【判断题】关联分析是数据分析中常用的分析方法。
A、正确
B、错误
20、【填空题】在这个大数据爆炸的时代,我们期待能够从这些数据中提炼出有用的知识,解决的方法就是数据仓库技术和 技术。
A、
21、【填空题】在这个大数据爆炸的时代,我们期待能够从这些数据中提炼出有用的知识,解决的方法就是 技术和数据挖掘技术。
A、
22、【填空题】从存储方式对数据类型进行分类,可分为 数据和 数据。(输入两个位置的答案时,以一个空格作为分隔符)
A、
23、【填空题】预测的模型构建需要 来进行分析。
A、
24、【填空题】 就是根据有类别的数据提供的信息,来概括类别的主要特征,构建模型或者规则,根据该模型或者规则预测对象的类别。
A、
第二章单元测验
1、【单选题】下列对学生相关属性描述中,不是标称属性的是( )。
A、头发颜色
B、婚姻状况
C、身高
D、学号
2、【单选题】下列哪些选项能表示序数属性的数据集中趋势度量( )。
A、众数
B、均值
C、四分位数
D、标准差
3、【单选题】( )可以观察从一个分布到另一分布是否有漂移。
A、直方图
B、散点图
C、盒图
D、分位数-分位数图
4、【单选题】4人喜欢服饰的颜色如下,属性是标称属性。李四和孙六的相似性是( )。姓名帽子颜色上衣颜色裤子颜色鞋子颜色围巾颜色张三红蓝蓝绿红李四红蓝蓝红粉王五黄绿蓝绿红孙六蓝蓝蓝红粉
A、1/5
B、2/5
C、3/5
D、4/5
5、【单选题】度量作为一种测度,满足以下哪些条件:
A、同一性
B、对称性
C、三角不等式
D、以上均是
6、【单选题】Python语言在创始人是( )。
A、Bill Gates
B、Sergey Brin
C、Larry Page
D、Guido van Rossum
7、【单选题】Python科学计算的基本包是( )。
A、Pandas
B、Scikit-learn
C、Numpy
D、Matplotlib
8、【单选题】以下Python包中,绘图功能最强大的是( )。
A、Pandas
B、Scikit-learn
C、Numpy
D、Matplotlib
9、【单选题】以下Python包中,最适合用于机器学习的是( )。
A、Pandas
B、Scikit-learn
C、Numpy
D、Matplotlib
10、【单选题】以下Python包中,提供了DataFrame数据类型的是( )。
A、Pandas
B、Scikit-learn
C、Numpy
D、Matplotlib
11、【单选题】为了避免包的依赖关系和系统兼容性等方面出现问题,本课程推荐的Python安装方式为( )。
A、直接下载Python安装
B、通过Anaconda安装
C、通过浏览器查找处理过的Python安装包
D、直接安装Pycharm
12、【多选题】下列对学生的描述属性中,标称属性的属性是:
A、头发颜色
B、婚姻状况
C、身高
D、学号
13、【多选题】下列哪些指标可以度量数据的离散趋势度量:
A、极差
B、四分位数
C、四分位数极差
D、五数概括
14、【多选题】在探索性数据分析中,认为最有代表性,最能反映数据重要特征的五数概括,包括:
A、中位数Q2
B、四分位数Q1
C、四分位数Q3
D、最小值
E、最大值
15、【判断题】在文献中,属性、维、特征和变量通常可以互换地使用。
A、正确
B、错误
16、【判断题】二元属性是一种特殊的标称属性,分为对称和不对称两种。
A、正确
B、错误
17、【判断题】序数属性的值存在有意义的序。相邻两者之间的差是已知的。
A、正确
B、错误
18、【判断题】如果属性不是离散的,则它是连续的。
A、正确
B、错误
19、【判断题】四分位数极差(IQR)是第1个和第2个四分位数之间的距离。
A、正确
B、错误
20、【判断题】盒图用来考察两个属性之间是否存在正相关和负相关。
A、正确
B、错误
21、【判断题】对于非对称的二元属性,两个都取值1的情况(正匹配)被认为比两个都取值0的情况(负匹配)更有意义,其中负匹配数t被认为是不重要的,因此在计算时可以忽略。
A、正确
B、错误
22、【判断题】一般来说数据库中行对应于数据对象,而列对应于属性。
A、正确
B、错误
23、【判断题】相异性矩阵又称对象-对象结构,存放n个对象两两之间的邻近度。
A、正确
B、错误
24、【判断题】在计算混合类型属性的相异性时,一般是通过将所有有意义的属性转换到共同的区间[0.0,1.0]上,实现在单个相异性矩阵中进行计算。
A、正确
B、错误
25、【填空题】为了抵消少数极端值对均值计算的影响,我们可以使用 。
A、
26、【填空题】中列数是数据集的 最大值 和 的平均值。
A、
27、【填空题】给定两个数据对象(19,4,5)和(22,6,3),则两个对象之间的欧氏距离 。【如果计算结果是小数,则保留一位;如果是整数,则直接填写整数】
A、
28、【填空题】给定两个数据对象(19,4,5)和(22,6,3),则两个对象之间的曼哈顿距离 。【如果计算结果是小数,则保留一位;如果是整数,则直接填写整数】
A、
29、【填空题】给定两个数据对象(19,4,5)和(22,6,3),则两个对象之间的上确界距离 。【如果计算结果是小数,则保留一位;如果是整数,则直接填写整数】
A、
30、【填空题】x=(5,0,3,0,2,0,0,2,0,0)和y=(3,0,2,0,1,1,0,1,0,1),使用余弦相似度公式计算这两个向量之间的相似性等于 。【如果计算结果是小数,则保留一位;如果是整数,则直接填写整数】
A、
第三单元测验
1、【单选题】运行以下代码from sklearn.datasets import load_irisiris_data = load_iris()iris_data.data.shape输出结果为(150, 4)。则表示iris数据集包括样本个数为( )。
A、150
B、4
C、600
D、154
2、【单选题】运行以下代码from sklearn.datasets import load_irisiris_data = load_iris()iris_data.data.shape输出结果为(150, 4)。则表示iris数据集包括样本特征数为( )。
A、150
B、4
C、600
D、154
3、【单选题】在Numpy包中,计算中位数的函数为( )。
A、numpy.mean()
B、numpy.median()
C、numpy.std()
D、numpy.var()
4、【单选题】在Numpy包中,计算标准差的函数为( )。
A、numpy.mean()
B、numpy.median()
C、numpy.std()
D、numpy.var()
5、【单选题】给定df是一个DataFrame对象,对df所有字段进行描述性统计,可以利用的方法为( )。
A、df.summary()
B、df.statistics()
C、df.mean()
D、df.describe()
6、【单选题】运行以下代码” import matplotlib.pyplot as plt”引入plt后,要绘制饼状图,需要利用的函数为( )。
A、plt.bar()
B、plt.pie()
C、plt.plot()
D、plt.hist()
7、【单选题】运行以下代码” import matplotlib.pyplot as plt”引入plt后,要绘制折线图,需要利用的函数为( )。
A、plt.bar()
B、plt.pie()
C、plt.plot()
D、plt.hist()
8、【单选题】运行以下代码” import matplotlib.pyplot as plt”引入plt后,要绘制直方图,需要利用的函数为( )。
A、plt.bar()
B、plt.pie()
C、plt.plot()
D、plt.hist()
9、【单选题】运行以下代码” import matplotlib.pyplot as plt”引入plt后,要绘制散点图,需要利用的函数为( )。
A、plt.bar()
B、plt.scatter()
C、plt.plot()
D、plt.hist()
10、【单选题】使用最小-最大法进行数据规范化,需要映射的目标区间为[0,100],原来的取值范围是[-10,10]。根据等比映射的原理,一个值8映射到新区间后的值是( )。
A、80
B、85
C、90
D、95
11、【单选题】使用零均值规范化方法,年收入属性的均值为65,标准差为12,则年收入59万元规范化后为( )。
A、-0.5
B、-0.2
C、0.3
D、0.5
12、【单选题】使用等距离分箱法进行数据离散化,数据范围为20, 40, 50, 58, 65, 80, 80, 82, 86, 90, 96, 105, 120, 200,区间个数为4。下列属于4个箱的区间是( )。
A、[20,65]
B、(65,110)
C、[110,155)
D、(155,200]
13、【单选题】特征选择方法中,一般的启发式方法有( )。
A、逐步增加法
B、逐步递减法
C、随机选择
D、以上都是
14、【单选题】在使用主成分分析法进行数据属性特征提取中,在对数据集进行中心化处理后,为了去除冗余和降低噪音,应将协方差矩阵非对角线上的元素化为( )。
A、-1/2
B、0
C、1/2
D、不用处理
15、【单选题】关联规则的挖掘算法只能处理( )类型的取值,为此( )是继续其知识发现过程的必要步骤。
A、离散;数据离散化
B、连续;数据离散化
C、离散;数据规范化
D、连续;数据规范化
16、【单选题】( )是指对描述对象的属性进行重新组合,获得一组反映事物本质的少量的新的属性的过程。( )是指从属性集合中选择那些重要的、与分析任务相关的子集的过程。
A、特征提取;特征选择
B、特征选择;特征提取
C、数据提取;数据选择
D、数据选择;数据提取
17、【单选题】下列不属于数据预处理原因的是( )。
A、数据可能存在缺失、错误、不一致等问题
B、数据有可能不能很好地反映潜在的模式
C、有些数据属性是无用的或者冗余的
D、数据量过于庞大
18、【单选题】下列关于数据规范化说法错误的是( )。
A、数据规范化又称为数据标准化
B、数据规范化是将属性的取值范围统一
C、数据规范化是为了给重要的属性赋予更大的权重
D、数据规范化是为了避免不同属性的不平等地位
19、【单选题】缺失值处理方法中错误的是( )。
A、对于分类属性,使用同类对象属性值的均值
B、对于离散属性或定性属性,使用众数
C、对于所有属性都可以使用均值
D、转换为分类问题或数值预测问题
20、【单选题】主成分分析的步骤是( )。
A、中心化数据集-计算主成分矩阵-计算协方差矩阵-计算特征根-得到降维后的数据集
B、中心化数据集-计算协方差矩阵-计算特征根-计算主成分矩阵-得到降维后的数据集
C、计算协方差矩阵-计算主成分矩阵-计算特征根-中心化数据集-得到降维后的数据集
D、计算协方差矩阵-计算特征根-中心化数据集-计算主成分矩阵-得到降维后的数据集
21、【单选题】下列关于等距离分箱的说法中错误的是( )。
A、又称为等宽度分箱
B、若区间个数为k,每个区间的间距为I=(max-min)/k
C、等距离分箱能使每个区间内包含的取值个数大致相同
D、等距离分箱可能导致属于某些的取值非常多,而某些又非常少
22、【单选题】数据预处理的任务不包括( )。
A、数据分类
B、数据清洗
C、数据规范化和离散化
D、特征提取与特征选择
23、【单选题】使用python处理缺失值的方法中叙述错误的是( )。
A、isnull()判断缺失值
B、dropna()删除缺失值
C、fillna()填充缺失值
D、interpolate()使用中位数填充缺失值
24、【单选题】最小最大规范化方法MinMaxScaler属于python中的哪个包( )。
A、sklearn
B、pandas
C、numpy
D、scipy
25、【单选题】主成分分析方法PCA属于属于python中的哪个包( )。
A、sklearn
B、pandas
C、numpy
D、scipy
26、【单选题】最小-最大法中,假设需要映射到目标区间为[L,R ],原来的取值范围为[l, r ]。一个值x映射到新区间后的值v的计算方法是( )。
A、<img src="http://edu-image.nosdn.127.net/_PhotoUploadUtils_0ef57d0d-8106-418f-a322-0c42e657afee.png" />
B、<img src="http://edu-image.nosdn.127.net/_PhotoUploadUtils_9d4a75c6-6f80-4a64-9f44-003929a79675.png" />
C、<img src="http://edu-image.nosdn.127.net/_PhotoUploadUtils_4f39b2bb-28ba-4e44-9c83-0fbf4b0d49f0.png" />
D、<img src="http://edu-image.nosdn.127.net/_PhotoUploadUtils_e8b9c9cc-79fb-4c8a-b7d2-d8370074754e.png" />
27、【多选题】在利用中文文本绘制词云时,需要在anaoncda的基础上安装哪些工具包( )。
A、Wordcloud
B、Scikit-learn
C、Jieba
D、Matplotlib
28、【多选题】数据预处理的任务有哪些( )。
A、数据离散化
B、数据规范化
C、数据清洗
D、特征提取与特征选择
29、【多选题】数据规范化方法有哪些( )。
A、最小-最大法
B、z-score
C、聚类
D、分类
30、【多选题】数据清洗的主要目的是将数据集中存在的( )和( )进行处理,降低其对后续数据分析处理的影响。
A、缺失
B、噪声
C、最大值
D、最小值
31、【判断题】特征选择过程是描述同一对象的多个属性的取值范围,统一到相同的范围,避免某些属性的作用大于其它属性。
A、正确
B、错误
32、【判断题】通过数据离散化,可以实现缩减数据量的效果。
A、正确
B、错误
33、【判断题】有监督的离散化方法常用的有分箱法和ChiMerge方法。
A、正确
B、错误
34、【判断题】基于熵的方法可以被看做是自顶向下的分裂方法,ChiMerge则属于自底向上的合并方法。
A、正确
B、错误
35、【判断题】一种简单的填补缺失值的方法为, 将属于同一类的对象的该属性值的均值赋予此缺失值。
A、正确
B、错误
36、【判断题】分箱离散化是一种有监督离散化方法。
A、正确
B、错误
37、【判断题】基于熵的离散化方法是常用的有监督的离散化方法。
A、正确
B、错误
38、【判断题】选择属性子集的方法一般采用启发式方法,只检验部分可能性比较大的子集,这样可以快速完成属性的选择。
A、正确
B、错误
39、【判断题】主成分分析能够达到去除冗余、降低噪音和降维的目的,但无法得到反映事物本质的新变量。
A、正确
B、错误
40、【判断题】将数据分为n个等频的箱中,可以⽤箱均值、箱中位数或箱边界光滑数据。
A、正确
B、错误
41、【判断题】在主成分分析中,每个主成分都是原始变量的线性组合,且各个主成分之间互不相关。
A、正确
B、错误
42、【填空题】等距离分箱可能导致属于某些区间的取值非常多,而某些区间的取值又非常少。 则能够解决此问题。
A、
43、【填空题】面对噪音,一类是识别出噪音,将其去除;另一类是可以使用 方法,用于平滑噪音。
A、
44、【填空题】使用主成分分析法进行数据属性特征提取中,每个新的特征是原有特征的 。
A、
45、【填空题】一组数据:20,40,50,58,65,80,80,82,86,90,96,105,120,200。采用等距分箱法分为4箱,其中82位于第____个箱。(填写阿拉伯数字)
A、
46、【填空题】一组数据:20,40,50,58,65,80,80,82,86,90,96,105,120,200。使用最大-最小法进行数据规范化,目标区间为[0,1],则80映射到新区间后的值为___。(四舍五入保留小数点后两位)
A、
第四单元测验
1、【单选题】Python在调用efficient-apriori包中的apriori函数进行挖掘关联规则时,第一个返回值是( )。
A、频繁项集
B、关联规则
C、最小支持度
D、最小置信度
2、【单选题】Python在调用efficient-apriori包中的apriori函数进行挖掘关联规则时,第二个返回值是( )。
A、频繁项集
B、关联规则
C、最小支持度
D、最小置信度
3、【单选题】如下表所示,X={butter, cheese},则支持度support(X)=( )。交易号(TID)商品(Items)1beer, diaper, nuts2beer, biscuit, diaper3bread, butter, cheese4beer, cheese, diaper, nuts5beer, butter, cheese, nuts
A、1/5
B、2/5
C、3/5
D、4/5
4、【单选题】如下表所示,X={butter, cheese},Y={beer},则置信度confidence(X→Y)=( )。交易号(TID)商品(Items)1beer, diaper, nuts2beer, biscuit, diaper3bread, butter, cheese4beer, cheese, diaper, nuts5beer, butter, cheese, nuts
A、1/2
B、1/3
C、1/4
D、2/5
5、【单选题】如下表所示,使用FP-Growth计算其频繁集,给定最小支持度为40%,频繁模式树(FP树)有( )个结点。(不包括根结点)。交易号(TID)商品(Items)1beer, diaper, nuts2beer, biscuit, diaper3bread, butter, cheese4beer, cheese, diaper, nuts5beer, butter, cheese, nuts
A、5
B、8
C、9
D、10
6、【单选题】对于任一个频繁项集X和它的一个非空真子集Y, S=X-Y,规则S→Y成立的条件是( )。
A、confidence(S→Y)<minconf
B、confidence(S→Y)≥minconf
C、confidence(Y→S)<minconf
D、confidence(Y→S)≥minconf
7、【单选题】在多层次关联规则分析中,如果将商品进行归类,每一商品类别的支持度会( )其包含的每个商品的支持度,从而有利于发现一些有意义的频繁模式或关联规则。
A、小于
B、等于
C、大于
D、不确定
8、【单选题】在FP-growth构建频繁模式树中,每个( )(除根结点外)代表一个单项,树中的每条( ) 代表原数据中每一个条目的各个项。如果把条目内的项组合在一起看成一个字符串,则字符串前缀相同时共享相同的( ) 。
A、结点;路径;路径
B、结点;路径;结点
C、路径;路径;结点
D、路径;路径;路径
9、【判断题】购买了此商品后还会购买的商品,它们的地位是平等的,其中涉及了时间和顺序的概念,强调的是一个规则,也就是我们所说的关联规则。
A、正确
B、错误
10、【判断题】如果一个项集是不频繁的, 则其所有的超集都是不频繁的。利用这一性质可以简化Apriori算法中的计算过程。
A、正确
B、错误
11、【判断题】逐层发现算法Apriori发现频繁项集的过程是按照项集的长度由大到小逐级进行的。
A、正确
B、错误
12、【判断题】利用项的概念层次信息,不仅可以发现涉及那些出现频率比较低的商品的频繁模式和关联规则,而且还可以发现概括性更强的规则。
A、正确
B、错误
13、【判断题】在结构化数据中进行关联分析发现其中的频繁模式和关联规则。对于取值连续的属性,首先将其离散化,然后将每个取值区间作为一个值,继而转化为“属性=值”的形式。
A、正确
B、错误
14、【判断题】若Y和Z是X的两个不同的k项子集,只有当confidence(X-Y→Y)≥minconf和confidence(X-Z→Z) ≥minconf都满足时,X-(Y∪Z) →(Y∪Z)一定成立。
A、正确
B、错误
15、【判断题】具体来讲,若一个项集X的支持度大于用户给定的一个最小支持度阈值, 则X被称为频繁项集(或频繁模式)。
A、正确
B、错误
16、【判断题】如果一个规则X→Y同时满足support(X→Y)≥minsup和confidence(X→Y)≥minconf, 则称该规则在数据库D中成立, 其中minsup和minconf分别是用户给定的最小支持度和最小置信度的阈值。
A、正确
B、错误
17、【判断题】给定最小支持度阈值minsup,一个频繁项集的所有非空子集都是频繁的。
A、正确
B、错误
18、【判断题】FP-growth算法无须生成候选项集的方法,可以避免产生大量候选项集。
A、正确
B、错误
19、【填空题】Python在调用efficient-apriori包中的apriori函数训练挖掘关联规则时,设定最小支持度的参数是______。
A、
20、【填空题】Python在调用efficient-apriori包中的apriori函数训练挖掘关联规则时,设定最小置信度的参数是______。
A、
21、【填空题】给定一个频繁负项集X,我们可以从中发现隐含的负关联规则。负项集和负关联规则统称为_____ 。
A、
22、【填空题】如果一个规则和其祖先规则具有近似相同的置信度,则该规则称为_____。为了减少发现的规则数目,可以将其从输出的结果中删除。
A、
第五单元测验
1、【单选题】通过代码“from sklearn import tree”引入决策树模块,并通过代码“clf = tree.DecisionTreeClassifier()”构造分类器对象后,训练时要调用的方法是( )。
A、clf.train()
B、clf.fit()
C、clf.learn()
D、clf.predict()
2、【单选题】通过代码“from sklearn import tree”引入决策树模块,并通过代码“clf = tree.DecisionTreeClassifier()”构造分类器对象,在训练后做预测时要调用的方法是( )。
A、clf.predict()
B、clf.forecast()
C、clf.guess()
D、clf.outlook()
3、【单选题】利用tree.DecisionTreeClassifier()训练模型时调用.fit()方法需要传递的第一个参数是( )。
A、样本特征X
B、样本标签Y
C、判断标准
D、设置结点的最小样本数量
4、【单选题】利用tree.DecisionTreeClassifier()训练模型时调用.fit()方法需要传递的第二个参数是( )。
A、样本特征X
B、样本标签Y
C、判断标准
D、设置结点的最小样本数量
5、【单选题】通过代码“from sklearn import metrics”引入评价指标模块后,面对真实标签true_label和模型预测标签predicted_label,混淆矩阵可通过调用( )代码得到。
A、confusion_matrix(true_labe, predicted_label)
B、confusion_matrix(predicted_label, true_labe)
C、metrics.confusion_matrix(true_labe, predicted_label)
D、metrics.confusion_matrix(predicted_label, true_labe)
6、【单选题】在Scikit-learn模块下,不同分类模型在训练时,调用的方法名称( )。
A、相同
B、不同
C、视情况而定
D、不知道
7、【单选题】在Scikit-learn模块下,不同分类模型在预测时,调用的方法名称( )。
A、相同
B、不同
C、视情况而定
D、不知道
8、【单选题】用于分类与回归应用的主要算法有( )。
A、Apriori算法、HotSpot算法
B、RBF神经网络、K均值法、决策树
C、K均值法、SOM神经网络
D、决策树、BP神经网络、贝叶斯
9、【单选题】决策树中不包含一下哪种结点( )。
A、根结点(root node)
B、内部结点(internal node)
C、外部结点(external node)
D、叶结点(leaf node)
10、【单选题】以下哪种算法是分类算法( )。
A、DBSCAN
B、C4.5
C、K-Mean
D、EM
11、【单选题】下列属于决策树中应该剪枝的情景是( )。
A、一个结点关联的数据集的信息熵高于指定阈值
B、一个结点关联的数据集的信息熵低于指定阈值
C、双亲结点的误差比子女结点的加权误差大
D、双亲结点的误差比子女结点的平均误差大
12、【单选题】朴素贝叶斯分类中得到条件概率的方法错误的是( )。
A、对于定性属性,计算某一类别的样本中某种属性取该值的样本所占比例来近似
B、对于定性属性,将转化为定量属性,再计算相应的概率
C、对于定量属性,将取值离散化变为区间,再当做定性属性处理
D、对于定量属性,假设变量服从某种概率分布,通过训练数据集估计分布的参数
13、【单选题】假设某分类器在一个测试数据集上的分类结果的混淆矩阵如下所示,该分类器的准确率accuracy为( )。 PredictedyesnoActualyes155no1020
A、70%
B、75%
C、66.7%
D、80%
14、【单选题】假设某分类器在一个测试数据集上的分类结果的混淆矩阵如下所示,该分类器的错误率error rate为( )。 PredictedyesnoActualyes155no1020
A、30%
B、25%
C、33.3%
D、20%
15、【多选题】构造训练数据集和测试数据集的常用方法有( )。
A、保持法 (hold out)
B、交叉验证法 (cross validation)
C、自助抽样法 (bootstrap)
D、留一法(leave one out)
16、【多选题】为了比较利用不同分类算法构建的分类模型的性能,可以利用图形进行比较,常用的图形包括( )。
A、增益图
B、ROC曲线
C、直方图
D、条形图
17、【判断题】分类是总结已有类别对象的特点,并根据这些特点,进行未知类别对象的类别预测的过程。又可称为无监督学习。
A、正确
B、错误
18、【判断题】Bayes法是一种在已知后验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。
A、正确
B、错误
19、【判断题】分类模型的误差大致分为两种:训练误差(training error)和泛化误差(generalization error)。
A、正确
B、错误
20、【判断题】在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题。
A、正确
B、错误
21、【判断题】决策树方法通常用于关联规则挖掘。
A、正确
B、错误
22、【判断题】留一法是交叉验证法的特殊情况。
A、正确
B、错误
23、【判断题】决策树的思想是自顶向下递归的构建过程,关键点是在于分裂属性和分裂条件的选择。
A、正确
B、错误
24、【判断题】ID3 的分裂属性选择条件是选择信息增益最大的作为分裂属性。
A、正确
B、错误
25、【判断题】朴素贝叶斯分类基于贝叶斯定理的一种分类方法。
A、正确
B、错误
26、【判断题】k 近邻方法不需要事先学习分类模型,当需要预测的时候,根据预测样本的特性和已知训练数据集中的数据进行类别的判断。
A、正确
B、错误
27、【判断题】K近邻方法的核心思想是对一个预测样本A,从训练数据集中找到与其最相似的k个样本,利用这个k个样本的类别来决策该样本A的类别。
A、正确
B、错误
28、【填空题】为了评价一个分类模型的性能,我们通常根据分类模型判断一组已知类别的对象的类别,这些已知类别的对象构成的数据集称为 。
A、
29、【填空题】决策树中根结点的层次为 。【请填写阿拉伯数字】
A、
30、【填空题】分类算法针对某个测试数据集的有效性通常通过 矩阵来反映。
A、
31、【填空题】假设某分类器在一个测试数据集上的分类结果的混淆矩阵如下所示,请计算该分类器的错误率,以类别yes为正例,计算分类器的查准率precision为 %。【保留到整数位】 PredictedyesnoActualyes155no1020
A、
32、【填空题】假设某分类器在一个测试数据集上的分类结果的混淆矩阵如下所示,请计算该分类器的错误率,以类别yes为正例,计算分类器的查全率recall为 %。【保留到整数位】 PredictedyesnoActualyes155no1020
A、
第六单元测验
1、【单选题】通过代码”from sklearn import linear_model”引入线性模型模块,并通过代码“reg = linear_model.LinearRegression()”构造回归器对象后,在训练时要调用的方法是( )。
A、reg.train()
B、reg.fit()
C、reg.learn()
D、reg.predict()
2、【单选题】通过代码”from sklearn import linear_model”引入线性模型模块,并通过代码“reg = linear_model.LinearRegression()”构造回归器对象,在训练后做预测时要调用的方法是( )。
A、reg.guess()
B、reg.forecast()
C、reg.predict()
D、reg.outlook()
3、【单选题】利用“linear_model.LinearRegression()”训练模型时调用.fit()方法需要传递的第一个参数是( )。
A、样本特征X
B、样本标签Y
C、样本权重
D、是否考虑计算截距
4、【单选题】利用linear_model.LinearRegression()训练模型时调用.fit()方法需要传递的第二个参数是( )。
A、样本特征X
B、样本标签Y
C、样本权重
D、是否考虑计算截距
5、【单选题】在利用linear_model.LinearRegression()构造的reg对象训练模型后,可以通过以下哪行代码查看回归模型系数( )。
A、reg.coefficient_
B、reg._coefficient
C、reg. _coef
D、reg.coef_
6、【单选题】在以下四个散点图中,其中适用于作线性回归的散点图为( )。<img src="http://edu-image.nosdn.127.net/63345E1A331270BF071C87C80FFD9597.png?imageView width: 280px; height: 208px;" />
A、①②
B、①③
C、②③
D、③④
7、【单选题】已知对一组观察值(xi,yi)作出散点图后确定具有线性相关关系,若对于y=bx+a,求得b=0.51,x=61.75,y=38.14,则线性回归方程为( )。
A、y=0.51x+6.65
B、y=6.65x+0.51
C、y=0.51x+42.30
D、y=42.30x+0.51
8、【单选题】对于指数曲线y=a*e^(bx),令u=ln y,c=ln a,经过非线性化回归分析之后,可以转化成的形式为( )。
A、u=c+bx
B、u=b+cx
C、y=b+cx
D、y=c+bx
9、【单选题】下面关于构建模型树的说法中,错误的是( )。
A、创建一个结点t,与结点t关联的数据集记为Dt
B、如果当前结点t所关联的数据集Dt中样本个数小于给定阈值或者Dt中样本的目标属性取值的标准差小于给定阈值,则将该结点标记为叶子节点
C、在选择分类属性时,应选择时SDR值最小的属性
D、SDR代表误差的期望减少
10、【单选题】下列选项中错误的是( )。
A、MST=SST/dfT
B、MSE=SSE/dfE
C、MSR=SSR/dfR
D、SSR=SST+SSE
11、【单选题】决策树的叶子结点对应( )。
A、某个类别
B、一个数值
C、一个线性回归方程
D、以上都可以
12、【单选题】回归树的叶子结点对应( )。
A、某个类别
B、一个数值
C、一个线性回归方程
D、以上都可以
13、【单选题】模型树的叶子结点对应( )。
A、某个类别
B、一个数值
C、一个线性回归方程
D、以上都可以
14、【单选题】在比较模型的拟合效果时,甲、乙、丙、丁四个模型的决定系数R^2的值分别约为0.96、0.85、0.80和0.7,则拟合效果好的模型是( )。
A、甲
B、乙
C、丙
D、丁
15、【多选题】多元回归建模后的检验包括( )。
A、拟合优度检验
B、回归关系的显著性检验
C、回归系数的显著性检验
D、倾向值检验
16、【多选题】常用的非线性函数除了多项式函数之外,还包括( )。
A、幂函数
B、指数函数
C、对数函数
D、双曲函数
17、【多选题】( )采用自顶向下分而治之的思想,将训练集不断分割成子数据集来不断扩展树枝,当满足一定条件时停止树的生长。
A、决策树
B、模型树
C、回归树
D、多元回归
18、【多选题】预测性能的优劣需要一定的度量来衡量,常用的度量是( )。
A、MAE(平均绝对误差)
B、MSE(均方误差)
C、RSE(相对平方误差)
D、RAE(相对绝对误差)
19、【判断题】数值预测与分类都属于有监督学习,解决问题的过程相同,都是先通过训练数据集进行学习,以得到一个模型然后利用模型进行预测。
A、正确
B、错误
20、【判断题】<img src="http://edu-image.nosdn.127.net/_PhotoUploadUtils_40316428-b068-4981-aa0b-77ed0b4b748a.png" />的值越接近1,说明回归直线对观测值的拟合程度越好。
A、正确
B、错误
21、【判断题】为了检验回归系数的显著性,可以使用F检验。
A、正确
B、错误
22、【判断题】在模型树的剪枝过程中,两个叶子结点的期望误差通过加权求和结合在一起作为子树误差。
A、正确
B、错误
23、【判断题】回归树和模型树都是通过自下而上、分而治之的思想,将训练集不断分割成子数据集来不断扩展树枝,当满足一定条件时停止树的生长。
A、正确
B、错误
24、【判断题】在模型树的构建过程中,应选择使SDR值最小的属性。
A、正确
B、错误
25、【判断题】一元线性回归的步骤:构建包含因变量和自变量的训练集;通过散点图确认因变量和自变量之前的近似线性关系;计算系数和构建模型;模型检验;利用模型进行预测。
A、正确
B、错误
26、【判断题】多元回归是对一个自变量和多个因变量之间的回归分析。
A、正确
B、错误
27、【判断题】回归系数的检验可以采用t检验。
A、正确
B、错误
28、【判断题】模型树构建之后,为了避免过度拟合,需要对模型树进行剪枝。
A、正确
B、错误
29、【判断题】在模型树的构建过程中,分裂属性的选择以分裂后的各个子数据集中目标属性取值的标准差为依据,将标准差作为一种误差度量,将分裂前后标准差的减少量作为误差的期望减少,称为SDR。
A、正确
B、错误
30、【判断题】K近邻数值预测是利用一个样本的K个最相似的邻居的目标属性的取值来进行预测。
A、正确
B、错误
31、【填空题】模型树构建之后,为了避免过度拟合,需要对模型树进行________。
A、
32、【填空题】在模型树的构建过程中,分裂属性的选择以分裂后的各个子数据集中目标属性取值的标准差为依据,将标准差作为一种误差度量,将分裂前后标准差的减少量作为误差的期望减少,称为_________(填写英文简称)。
A、
微信扫码添加好友
如二维码无法识别,可拨打 13662661040 咨询。