
机器学习
学校: 无
问题: 1. 下列哪一种情况被称为过学习现象( )。
选项:
• A. 在训练集上A优于B,在测试集上A也优于B
• B. 在训练集上A优于B,在测试集上B优于A
• C. 相对于分类数据集,决策树过于简单
• D. 在训练集上决策树的误差很小
答案: 请关注公众号【渝粤搜题】查看答案
问题: 2. 有监督的学习和无监督的学习的根本区别在于( )。
选项:
• A. 学习过程是否需要人工干预
• B. 学习样本是否需要人工标记
• C. 学习结果是否需要人工解释
• D. 学习参数是否需要人工设置
答案: 请关注公众号【渝粤搜题】查看答案
问题: 3. 如果从员工的日常表现数据预测其升职的可能性可以使用下面哪种机器学习方法( )。
选项:
• A. 关联分析
• B. 线性回归分析
• C. 聚类分析
• D. 决策树 类算法
答案: 请关注公众号【渝粤搜题】查看答案
问题: 4. 下面有关决策树剪枝的说法错误的是( )。
选项:
• A. 决策树剪枝的目的是为了减少训练过程的过拟合,从而提升决策树模型的准确性
• B. 决策树剪枝可以放在决策树的构造过程(预剪枝),也可以等决策树模型全部建立后再做(后剪枝)
• C. 决策树剪枝的依据是看某层某个非叶节点转换成叶节点后,训练样本集的检验准确度是否提升
• D. 决策树剪枝符合Occam剃刀原理(即机器学习模型越简单越好)
答案: 请关注公众号【渝粤搜题】查看答案
问题: 1. 通过聚集多个决策树模型来提高分类准确率的技术称为( )。
选项:
• A. 合并
• B. 聚集
• C. 集成
• D. 加权求和
答案: 请关注公众号【渝粤搜题】查看答案
问题: 1. 装袋法的原理是通过组合多个训练集的分类结果来提升分类效果( )。
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题: 2. 装袋法中每个样本被选中概率相同,所以噪声数据的影响下降,容易受过拟合的影响( )。
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题: 1. 下列对提升法的描述正确的是( )。
选项:
• A. 每个单独训练样本都会被分配一个相同的初始权重
• B. 增加分类正确样本的权重,降低分类错误样本的权重来提来分类器的准确率
• C. 降低分类正确样本的权重,增加分类错误样本的权重来提来分类器的准确率
• D. 如何组合每一轮产生的分类模型得出预测结果是提升法需要解决的问题
答案: 请关注公众号【渝粤搜题】查看答案
问题: 1. 下列关于随机森林的描述正确的是( )。
选项:
• A. 与袋装法采用相同样本抽取方式
• B. 每次从所有属性中随机抽取t个属性来训练分类器
• C. 每次从所有样本中选取一定比例的样本来训练分类器
• D. 可以使用不同的决策树的组合来构建分类模型
答案: 请关注公众号【渝粤搜题】查看答案
问题: 2. 随机森林的2个随机指的是( )。
选项:
• A. 随机选取样本
• B. 随机选取分类器
• C. 随机选取权重
• D. 随机选取属性
答案: 请关注公众号【渝粤搜题】查看答案
问题: 1. 对联通客户进行分组,以便根据各组的特点,策划不同的营销方案,需要客户哪些数据( )。
选项:
• A. 客户人口数据
• B. 收入数据
• C. 家庭男女组成
• D. 客户长途市话以及漫游等通话数据
答案: 请关注公众号【渝粤搜题】查看答案
问题: 2. 有关机器学习算法选择的说法不正确的有( )。
选项:
• A. 每种算法都有其使用范围,因此选择算法需要考虑具体处理的问题
• B. 判断机器学习算法好坏在数据需求阶段就可以确定
• C. 在分类前可以先做聚类分析
• D.广东开放大学答案 对聚类问题可以任选一种聚类算法
答案: 请关注公众号【渝粤搜题】查看答案
问题: 3. 根据用户使用移动运营商的数据,可以为他们设计合适的套餐,使用哪种挖掘方法比较合适( )。
选项:
• A. 聚类
• B. 回归分析
• C. 神经网络
• D. 关联分析
答案: 请关注公众号【渝粤搜题】查看答案
问题: 4. 有关聚类算法不正确的说法是( )。
选项:
• A. 把分析的样本根据距离分组
• B. 必须给出聚类的组数
• C. 聚类是分类的基础
• D. 聚类算法可以找出每组样本不同的特征
答案: 请关注公众号【渝粤搜题】查看答案
问题: 1. 下列说法错误的是 ( )。
选项:
• A. 在聚类分析中,簇之间的相似性越大,簇内样本的差别越大,聚类的效果就越好
• B. 聚类分析可以看作是一种非监督的样本分组过程
• C. k均值算法是一种常用的聚类算法,簇的个数算法不能自动确定
• D. k均值算法的计算耗时与初始假设聚类中心的位置有关
答案: 请关注公众号【渝粤搜题】查看答案
问题: 2. 对于轮廓系数图表述正确的是( )。
选项:
• A. 每个点的取值范围为[0, 1]
• B. 每个点的取值越接近于0越好
• www.yuyue-edu.cnC. 可以体现出簇的紧凑性
• D. 对于离群点,取值可能超过1性
答案: 请关注公众号【渝粤搜题】查看答案
问题: 3. 如何衡量聚类的质量( )。
选项:
• A. 簇内数据点散布越小越好
• B. 簇中心点之间的距离越大越好
• C. 簇的个数越小越好
• D. 需要考虑数据点间的连通性
答案: 请关注公众号【渝粤搜题】查看答案
问题: 1. 一个好的聚类算法应当具备哪些潜质( )。
选项:
• A. 能够处理非球形的数据分布
• B. 能够处理噪点和离群点
• C. 对样本输入序列不敏感
• D. 对海量数据的可扩展性
答案: 请关注公众号【渝粤搜题】查看答案
问题: 2. 有关k-means下列说法正确的是( )。
选项:
• A. 可以确定样本属性的重要性
• B. 可以处理规则分布数据的聚类
• C. 适合任意数据集的分组
• D. 聚类的结果与初始选择的假设聚类中心无关
答案: 请关注公众号【渝粤搜题】查看答案
问题: 3. K-Means算法中的初始中心点( )。
选项:
• A. 可随意设置
• B. 必须在每个簇的真实中心点的附近
• C. 必须足够分散
• 渝粤教育D. 直接影响算法的收敛结果
答案: 请关注公众号【渝粤搜题】查看答案
问题: 4. 聚类中的簇与分类中的类的关系是( )。
选项:
• A. 簇即是类、类即是簇
• B. 簇是类的一种具体表现形式
• C. 类是簇的一种具体表现形式
• D. 不是一码事,但实际中有一定联系
答案: 请关注公众号【渝粤搜题】查看答案
问题: 5. 在市场营销中,聚类最有可能帮助经营者( )。
选项:
• A. 对客户群进行划分
• B. 进行商品推荐
• C. 进兴趣进行分类
• D. 辅助商品定价
答案: 请关注公众号【渝粤搜题】查看答案
问题: 1. 与K-Means相比,基于密度的DBSCAN的优点不包括( )。
选项:
• A. 能妥善处理噪点和离群点
• B. 能处理不规则的数据分布
• C. 不需要预先设定簇的个数
• D. 较低的计算复杂度
答案: 请关注公众号【渝粤搜题】查看答案
问题: 2. 在DBSCAN中,对数据点类型的划分中不包括( )。
选项:
• A. 中心点
• B. 核心点
• C. 边缘点
• D. 噪点
答案: 请关注公众号【渝粤搜题】查看答案
问题: 3. 在DBSCAN中,对数据点类型的划分中不包括( )。
选项:
• A. 划分到最近的簇
• B. 所有噪点单独形成一个簇
• C. 直接无视
• D. 不做特别区分
答案: 请关注公众号【渝粤搜题】查看答案
问题: 4. 在DBSCAN中,对噪音处理正确的是( )。
选项:
• A. 划分到最近的簇
• B. 所有噪点单独形成一个簇
• C. 直接无视
• D. 不做特别区分
答案: 请关注公众号【渝粤搜题】查看答案
问题: 1. 在层次型聚类中( )。
选项:
• A. 需要用户预先设定聚类的个数
• B. 需要用户预先设定聚类个数的范围
• C. 对于N个数据点,可生成1到N个簇
• D. 对于N个数据点,可生成1到N/2个簇
答案: 请关注公众号【渝粤搜题】查看答案
问题: 2. 在层次型聚类中,两个点集之间的距离计算方法通常不包括( )。
选项:
• A. 由点集间距离最近的一对点的距离决定
• B. 由点集间距离最远的一对点的距离决定
• C. 由点集间随机的一对点的距离决定
• D. 由点集间所有点的平均距离决定
答案: 请关注公众号【渝粤搜题】查看答案
问题: 1. 在混合高斯模型中,每一个数据点( )。
选项:
• A. 只能被某一个高斯生成
• B. 可以被所有高斯等概率生成
• C. 可以被任一高斯生成但概率可能不等
• D. 可以被任一高斯生成且概率由高斯的权重决定
答案: 请关注公众号【渝粤搜题】查看答案
问题: 2. 在混合高斯模型中,每个高斯的权重( )。
选项:
• A. 可以为负值
• B. 相加必须等于0
• C. 相加必须等于1
• D. 须由用户预先设定江苏开放大学答案
答案: 请关注公众号【渝粤搜题】查看答案
问题: 3. 在掷硬币的例子中,期望最大化算法的隐含参数指的是( )。
选项:
• A. 每组实验中正面朝上的次数
• B. 每组实验中选择的硬币
• C. 每枚硬币正面朝上的概率
• D. 每枚硬币被选中的次数
答案: 请关注公众号【渝粤搜题】查看答案
问题: 4. 以下有关kohonen神经网络聚类模型正确的说法是( )。
选项:
• A. Kohonen神经网络的聚类过程不需要计算样本之间的距离
• B. Kohonen输入层和输出层之间的权重修正不能使用梯度下降法
• C. kohonon神经网络输出层的神经元计算类似BP神经网络的输出神经元计算
• D. Kohonon神经网络聚类的组数事先可以确定
答案: 请关注公众号【渝粤搜题】查看答案
问题: 1. 下列属于文本分析应用的是( )。
选项:
• A北京开放大学答案. 文本聚类
• B. 实体挖掘
• C. 观点分析
• D. 文档摘要
答案: 请关注公众号【渝粤搜题】查看答案
问题: 2. 下列不属于文本分析过程的是( )。
选项:
• A. 分词
• B. 文本聚类
• C. 特征提取与表示
• D. 知识提取
答案: 请关注公众号【渝粤搜题】查看答案
问题: 1. 有关文本特征的理解,错误的说法是哪个( )。
选项:
• A. 文本不方便直接处理,需要提取表征内容的特征数值化
• B. TF-IDF和互信息都是文本特征提取的方法
• C. one-hot可以表示一个词的重要性
• D. 信息增益是文本特征提取的方法
答案: 请关注公众号【渝粤搜题】查看答案
问题: 2. 卡方统计量是用来检测( )。
选项:
• A. 两个事件的相关性
• B. 多个事件的独立性
• C. 两个事件的独立性
• D. 多个事件的相关性
答案: 请关注公众号【渝粤搜题】查看答案
问题: 3. 下列关于互信息的描述不正确的是( )。
选项:
• A. 可以用来度量事务之间的相关性
• B. 词和类别的独立概率相等的时候,词和类别的联合概率越大说明他们的相关性越小
• C. 词和类别的独立概率相等的时候,词和类别的联合概率越大说明他们的相关性越大
• D. 点互信息的简称是PMI
答案: 请关注公众号【渝粤搜题】查看答案
问题: 4. TF-IDF是一种文本统计方法,主要用来评估文本中一个词对语料库中一篇文档的重要程度。
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题: 5. 一个词在A文档中出现的频率比较高,在其他文档中出来的频率也比较高,这个词适合作为文章的特征词。
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题: 6. 谷歌公司提出的GloVe算法是通过共现矩阵来计算每个词在句子中出现的频率。
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题: 7. 信息增益越大说明所选择属性的效能越低。
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题: 8. 下列关于词嵌入的叙述正确的是( )。
选项:
• A. 经常用欧式距离和余弦相似度来度量文本的相似性
• B. 采用独热方法来生成词向量
• C. 词与词之间有词序和搭配等关联信息
• D. 用神经网络模型参数来表示词向量之间的关系
答案: 请关注公众号【渝粤搜题】查看答案
问题: 1. 有关知识图谱的描述,哪些是错误的( )。
选项:
• A. 知识图谱是一种非结构化的知识表达方式
• B. 知识图谱由实体、概念及其之间的语义关系组成的复杂网络结构
• C. 知识图谱可用于提高搜索引擎的质量和效率,因为它可以通过搜索关键词在知识图谱中推理
• D. 知识图谱就是用图像表达的实体和概念之间的语义关系,呈现复杂的网络关系
答案: 请关注公众号【渝粤搜题】查看答案
问题: 2. 知识图谱构建的三个步骤是( )。
选项:
• A. 定义概念
• B. 信息抽取
• C. 知识融合
• D. 知识加工
答案: 请关注公众号【渝粤搜题】查看答案
问题: 3. 知识图谱的应用非常广泛,下列不属于知识图谱应用领域的是( )。
选项:
• A. 金融
• B. 教育
• C. 医疗
• D. 智能客服
答案: 请关注公众号【渝粤搜题】查看答案
问题: 4. 以下哪种结构不适合存储知识图谱( )。
选项:
• A. 三元组表格
• B. 类型表
• C. 图结构
• D. 链表
答案: 请关注公众号【渝粤搜题】查看答案
问题: 5. 下列不属于知识图谱挖掘与计算常用的算法是( )。
选项:
• A. 最短路径
• B. 权威节点分析
• C. 相似节点分析
• D. 决策树
答案: 请关注公众号【渝粤搜题】查看答案
问题: 6. 下列知识图谱的构建过程哪个说法是错误的( )。
选项:
• A. 知识图谱的设计分为本体库和实体、关系等数据体两部分
• B. 知识图谱中的实体、概念及其关系可以从各种语料库中提取
• C. 提取知识图谱中的实体及其属性关系需要借助分词、词性标注、实体识别、语义消歧和关系识别等技术
• D. 知识图谱设计可以由机器自动完成
答案: 请关注公众号【渝粤搜题】查看答案
问题: 7. 知国家开放大学答案识图谱应用时可以使用最短路径等图计算的方法找到实体或概念之间的关系。
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题: 8. 知识图谱构建后可以一直使用,不需要更新维护。
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题: 9. 知识图谱中实体及其关系可能来自于多个语料库,因此需要去重,消歧和整合处理。
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题: 1. 以下有关文本分词的说法正确的是哪个( )。
选项:
• A. 英文文本不需要分词
• B. 分词算法都需要一个词典
• C. 基于统计的分词方法的性能与训练语料库的质量密切相关
• D. 分词合适与否不会引起句子的歧义
答案: 请关注公众号【渝粤搜题】查看答案
问题: 2. 下列不属于文本分词算法种类的有( )。
选项:
• A. 基于词典的分词
• B. 基于语料库的分词
• 上海开放大学答案C. 基于统计的分词
• D. 基于规则的分词
答案: 请关注公众号【渝粤搜题】查看答案
问题: 3. 词法分析不包括( )。
选项:
• A. 分词
• B. 命名实体识别
• C. 语义消歧
• D. 特征提取
答案: 请关注公众号【渝粤搜题】查看答案
问题: 4. 英文分词的步骤包括( )。
选项:
• A. 根据空格拆分单词
• B. 去停用词
• C. 提取词干
• D. 规则映射
答案: 请关注公众号【渝粤搜题】查看答案
问题: 1. 在句法分析中,以下哪个说法是错误的( )。
选项:
• A. 句法分析是有关组成句子的词汇之间的语义关系
• B. 依存句法分析组成句子的词与词之间的修饰关系
• C. 依存句法分析主要靠大量的预料训练
• D. 句法分析可以用于渝粤搜题信息检索
答案: 请关注公众号【渝粤搜题】查看答案
问题: 2. 下列不属于句法分析应用场景的是( )。
选项:
• A. 机器翻译
• B. 问答系统
• C. 欺诈预测
• D. 文本挖掘
答案: 请关注公众号【渝粤搜题】查看答案
问题: 3. 句法分析是将输入的句子从序列的形式变成树状结构。
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题: 1. 下面语义分析哪个说法是错误的( )。
选项:
• A. 语义分析与词法、句法相互独立
• B. 语义分析的目的是为了让机器了解句子的语义,以便交流以及机器自动处理文本
• C. 句法分析是浅层语义分析的基础
• D. 语义角色标注是语义依存的基础,需要识别谓词、论元及其之间的关系
答案: 请关注公众号【渝粤搜题】查看答案
问题: 1. 下列属于文本分类模型的有( )。
选项:
• A. 基于规则的分类模型
• B. 基于概率的分类模型
• C. 基于机器学习的分类模型
• D. 基于神经网络的分类模型
答案: 请关注公众号【渝粤搜题】查看答案
问题: 2. 对文本进行情感分析常用的方法有( )。
选项:
• A. 决策树
• B. 贝叶斯分类
• C. 支持向量机
• D. k-Means云南开放大学答案
答案: 请关注公众号【渝粤搜题】查看答案
问题: 3. 以下哪个不是文本分析的应用领域( )。
选项:
• A. 新闻的摘要提取
• B. 评论观点挖掘
• C. 服务机器人
• D. 语音合成
答案: 请关注公众号【渝粤搜题】查看答案
问题: 4. 问答系统处理文档的正确顺序是( )。
渝粤题库选项:
• A. 文本信息抽取 → 问题理解 → 知识推理
• B. 知识推理 → 文本信息抽取 → 问题理解
• C. 问题理解 → 文本信息抽取 → 知识推理
• D. 都不对
答案: 请关注公众号【渝粤搜题】查看答案
问题: 5. 可以使用知识图谱进行信息抽取。
选项:
答案: 请关注公众号【渝粤搜题】查看答案
微信扫码添加好友
如二维码无法识别,可拨打 13662661040 咨询。