
大数据技术概论
学校: 辽宁开放大学
问题: 1. 大数据预处理阶段不包括数据插补步骤。( )
选项:
答案: 请关注公众号【云南开放大学答案渝粤搜题】查看答案
问题: 2. 在大数据分析过程中,无论数据采集还是预处理都是不可或缺的环节,它们决定了分析结果的质量。( )
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题: 3. 缺失值的处理方法只有直接删除,没有其他的处理方法。( )
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题: 4. 特征选择是指选择对预测结果影响力较大的特征,以改善学习算法的性能和解释性。( )
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题: 5. 数据的收集过程中,数据采集的工具和方法对数据质量、全面性和后续处理没有影响。( )
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题: 6. 数据降维是一种能有效减少数据复杂度,简化模型计算的技术。( )
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题: 7. 在HDFS中,NameNode为主节点,负责元数据管理和块位置的索引。( )
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题: 8. SQL数据库在定义关系时不需要定义属性的大小,从而避免了存储空间的浪费。( )
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题: 9. 在分布式文件系统HDFS中,数据丢失的问题可以通过在多个数据节点上复制相同的数据块来解决。( )
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题: 10. 当数据的结构发生变化时,使用SQL数据库进行相应调整的成本相对较低。( )
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题: 11. 按照预先设定的搜索规则,编写程序自动浏览并下载目标网页信息的数据采集方法称作( )
选项:
• A. 系统日志信息数据采集方法
• B. ETL工具数据采集方法
• C. 网络爬虫数据采集方法
• D. 传感器数据采集方法
答案: 请关注公众号【渝粤搜题】查看答案
问题: 12. 下列关于数据预处理的描述中,错误的是( )
选项:
• A. 数据预处理是数据挖掘过程中很重要的一步
• B. 数据预处理可以提高后续数据分析的准确率
• C. 数据预处理中,无论何时数据都需要降维处理
• D. 数据预处理包括数据清洗、数据集成等步骤
答案: 请关注公众号【渝粤搜题】查看答案
问题: 13. 数据的整理是根据分析目的对数据格式、形态和结构进行处理,其中( )能够在不损失或损失较少数据本身价值的情况下压缩数据。
选项:
• A. 数据的聚合
• B. 数据的提取
• C. 数据的连接
• D. 数据的变换
答案: 请关注公众号【渝粤搜www.yuyue-edu.cn题】查看答案
问题: 14. 下列关于异常值的描述中,错误的是( )。
选项:
• A. 可以使用箱线图检测异常值
• B. 当异常值的数量不是很多时,可以直接将含有异常值的观测记录删除
• C. 可以将异常值视为缺失值,按处理缺失值的方法处理异常值
• D. 异常值的存在不属于数据质量问题,不会影响模型的预测能力
答案: 请关注公众号【渝粤搜题】查看答案
问题: 15. 大数据预处理中,下列哪一项是用来处理噪声数据的?( )
选项:
• A. 数据清洗
• B. 数据转化
• C. 数据归约
• D. 数据抽样
答案: 请关注公众号【渝粤搜题】查看答案
问题: 16. 数据预处理的主要目的是( )。
选项:
• A. 江苏开放大学答案确定数据的来源
• B. 改变数据的存储位置
• C. 提高数据的质量和挖掘效率
• D. 增加原始数据的数量
答案: 请关注公众号【渝粤搜题】查看答案
问题: 17. 分位数分组的基本思想是将样本( ),各组所包含的样本个数相同。
选项:
• A. 等分成若干份
• B. 按属性值大小排序
• C. 随机分组
• D. 按序分组
答案: 请关注公众号【渝粤搜题】查看答案
问题: 18. 下列哪一项不是常用的数据预处理步骤( )。
选项:
• A北京开放大学答案. 数据清洗
• B. 数据集成
• C. 数据归约
• D. 数据可视化
答案: 请关注公众号【渝粤搜题】查看答案
问题: 19. 以下哪种方法不适宜处理大数据中的异常值( )。
选项:
• A. 直接删除异常值
• B. 将异常值替换为平均值
• C. 将异常值视为缺失值,用插值法处理
• D. 直接将异常值赋值为极大值
答案: 请关注公众号【渝粤搜题】查看答案
问题: 20. 下列哪一项不属于数据预处理的目标( )。
选项:
• A. 提高数据质量
• B. 提高数据安全性
• C. 提高数据的可利用性
• D. 减少数据处理的复杂性
答案: 请关注公众号【渝粤搜题】查看答案
问题: 21. 下列关于缺失值的描述中,错误的是( )。
选项:
• A. 缺失值是指数据集中有些变量的一个或多个取值无法获得
• B. 数据缺失的现象大量存在
• C. 回归插补的方法不会改变数据分布
• D. 当缺失数据的记录所占比例在数据集中少于10%时,可广东开放大学答案以将缺失值直接删除
答案: 请关注公众号【渝粤搜题】查看答案
问题: 22. 下列有关SQL数据库的局限性,描述错误的是( )。
选项:
• A. 结构化数据建模
• B. 已有数据结构的变化成本高
• C. 空间利用率低
• D. 无法保证事务处理的可靠性
答案: 请关注公众号【渝粤搜题】查看答案
问题: 23. 数据仓库为什么可以帮助企业保持竞争力( )?
选项:
• A. 提供数据分析功能以及数据可视化和演示功能
• B. 数据仓库可以自动清理垃圾数据
• C. 使用数据仓库可以节省存储空间
• D. 数据仓库提供了大量质量低下的数据供企业使用
答案: 请关注公众号【渝粤搜题】查看答案
问题: 24. 下列数据库中,属于文档数据库的是( )。
选项:
• A. Redis
• B. Neo4j
• C. HBase
• D. MongoDB
答案: 请关注公众号【渝粤搜题】查看答案
问题: 25. 下列各项属于数据仓库的特点的是( )。
选项:
• A. 数据以主题为导向,提供决策支持
• B. 数据源单一
• C. 数据质量低
• D. 不支持历史数据分析
答案: 请关注公众号【渝粤搜题】查看答案
问题: 1. 数据可视化可以帮助用户更快速地理解和掌握数据的含义、结构和重要特性。( )
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题: 2. 在数据分析中,数据可视化只是一种辅助工具,不具有实际的分析功能。( )
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题: 3. 散点图是最常用于展示两个数值型变量之间关系的可视化方法。( )
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题: 4. 雷达图适用于反映多个变量的相对大小与差异,不适合反映变量之间的相互关系。( )
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题: 5. 在进行数据分析时,数据预处理如数据清洗和数据转换是非必需的步骤。( )
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题: 6. 决策树是一种简单高效的分类模型。( )
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题: 7. 聚类分析仅能处理数值型数据,对于非数值型数据无效。( )
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题: 8. 在聚类的过程中,我们要事先知道数据中的类别信息,然后进行相应的分类。( )
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题: 9. 关联规则分析常用于购物篮分析,挖掘商品间的购买关系。( )
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题: 10. Excel是一种常用的电子表格程序,除了数据存储,还提供了丰富的数据分析和可视化功能。( )
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题: 11. 在数据可视化中,适合表示数据随时间变化的趋势的是( )。
选项:
• A. 散点图
• B. 折线图
• C. 柱形图
• D. 饼图
答案: 请关注公众号【渝粤搜题】查看答案
问题: 12. 气泡图中可以用来展示数据信息的属性包括( )。
选项:
• A. 仅横坐标
• B. 仅横坐标和纵坐标
• 渝粤教育C. 仅横坐标、纵坐标和气泡大小
• D. 横坐标、纵坐标、气泡大小和气泡颜色
答案: 请关注公众号【渝粤搜题】查看答案
问题: 13. 关于数据可视化的描述中,哪一项是错误的( )。
选项:
• A. 数据可视化的目的是使数据更易理解
• B. 数据可视化只能用于表示定量数据
• C. 数据可视化可以帮助我们发现数据中的模式
• D. 数据可视化可以帮助我们进行更好的决策
答案: 请关注公众号【渝粤搜题】查看答案
问题: 14. 如果要反映某学生在6渝粤搜题个学期中每学期平均成绩的变化情况,采用( )可视化方法较为合适。
选项:
• A. 饼图
• B. 折线图
• C. 散点图
• D. 直方图
答案: 请关注公众号【渝粤搜题】查看答案
问题: 15. 以下哪种大数据分析方法旨在将相似对象组合在一起?( )
选项:
• A. 聚类分析
• B. 关联规则分析
• C. 决策树分析
• D. 线性回归分析
答案: 请关注公众号【渝粤搜题】查看答案
问题: 16. 下列哪项是无监督学习的典型应用?( )
选项:
• A. 聚类分析
• B. 回归
• C. 分类
• D. 以上均是
答案: 请关注公众号【渝粤搜题】查看答案
问题: 17. 聚类分析在大数据分析中的主要渝粤题库功能是什么?( )
选项:
• A. 通过数据自动发现潜在的类
• B. 分析数据的分布特征
• C. 预测未来的数据变化
• D. 测量数据的准确性和稳定性
答案: 请关注公众号【渝粤搜题】查看答案
问题: 18. 根据已知的类标号建立分类模型的数据集是( )。
选项:
• A. 训练集
• B. 检验集
• C. 预测集
• D. 测试集
答案: 请关注公众号【渝粤搜题】查看答案
问题: 19. 以下关于聚类分析的描述中,错误的是( )。
选项:
• A. 聚类分析是一种无监督学习方法
• B. K-means是一种常用的聚类分析方法
• C. 聚类分析的目的是找出已知类别的数据
• D. 聚类分析常用于市场分析和社交网络分析
答案: 请关注公众号【渝粤搜题】查看答案
问题: 20. 在大数据的挖掘中,用于解决分类问题的机器学习算法不包括( )。
选项:
• A. 决策树
• B. 支持向量机
• C. k-近邻
• D. 线性回归
答案: 请关注公众号【渝粤搜题】查看答案
问题: 21. 下列各项关于分类的描述中,错误的是( )。
选项:
• A. 可以借助分类方法根据电子邮件的标题判断其是否为垃圾邮件
• B. 在进行建模之前就要有明确的分组预测目标
• C. k近邻算法是一种简单但强大的分类算法
• D. 用来建立分类模型的输入数据称为测试集
答案: 请关注公众号【渝粤搜题】查看答案
问题: 22. 在数据挖掘中,用以预测具有连续值输出的问题,一般选用( )方法。
选项:
• A. 分类
• B. 聚类
• C. 回归
• D. 关联规则
答案: 请关注公众号【渝粤搜题】查看答案
问题: 23. 下列上海开放大学答案哪种语言被广泛应用于大数据分析和机器学习中( )。
选项:
• A. Java
• B. Pyt国家开放大学答案hon
• C. C++
• D. Javascript
答案: 请关注公众号【渝粤搜题】查看答案
问题: 24. 以下哪种方法不属于常见的数据挖掘任务( )。
选项:
• A. 分类
• B. 聚类
• C. 关联规则
• D. 数据标记
答案: 请关注公众号【渝粤搜题】查看答案
问题: 25. 假设散点图中的观测点恰好落在一条直线上,说明两个变量之间的关系为( )。
选项:
• A. 完全线性相关
• B. 线性相关
• C. 非线性相关
• D. 不相关
答案: 请关注公众号【渝粤搜题】查看答案
微信扫码添加好友
如二维码无法识别,可拨打 13662661040 咨询。