
大数据技术概论
学校: 河南开放大学
问题: 1. 大数据预处理阶段不包括数据插补步骤。( )
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题: 2. 在大数据分析过程中,无论数据采集还是预处理都是不可或缺的环节,它们决定了分析结果的质量。( )
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题: 3. 缺失值的处理方法只有直接删除,没有其他的处理方法。( )
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题: 4. 特征选择是指选择对预测结果影响力较大的特征,以改善学习算法的性能和解释性。( )
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题: 5. 数据的收集过程中,数据采集的工具和方法对数据质量、全面性和后续处理没有影响。( )
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题: 6. 数据降维是一种能有效减少数据复杂度,简化模型计算的技术。( )
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题: 7. 在HDFS中,NameNode为主节点,负责元数据管理和块位置的索引。( )
选项:
答案: 请关注公众号【渝www.yuyue-edu.cn粤搜题】查看答案
问题: 8. SQL数据库在定义关系时不需要定义属性的大小,从而避免了存储空间的浪费。( )
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题: 9. 在分布式文件系统HDFS中,数据丢失的问题可以通过在多个数据节点上复制相同的数据块来解决。( )
选云南开放大学答案项:
答案: 请关注公众号【渝粤搜题】查看答案
问题: 10. 当数据的结构发生变化时,使用SQL数据库进行相应调整的成本相对较低。( )
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题: 11. 按照预先设定的搜索规则,编写程序自动浏览并下载目标网页信息的数据采集方法称作( )
选项:
• A. 系统日志信息数据采集方法
• B. ETL工具数据采集方法
• C. 网络爬虫数据采集方法
• D. 传感器数据采集方法
答案: 请关注公众号【渝粤搜题】查看答案
问题: 12. 下列关于数据预处理的描述中,错误的是( )
选项:
• A. 数据预处理是数据挖掘过程中很重要的一步
• B. 数据预处理可以提高后续数据分析的准确率
• C. 数据预处理中,无论何时数据都需要降维处理
• D. 数据预处理包括数据清洗、数据集成等步骤
答案: 请关注公众号【渝粤搜题】查看答案
问题: 13. 数据的整理是根据分析目的对数据格式、形态和结构进行处理,其中( )能够在不损失或损失较少数据本身价值的情况下压缩数据。
选项:
• A. 数据的聚合
• B. 数据的提取
• C. 数据的连接
• D. 数据的变换
答案: 请关注公众号【渝粤搜题】查看答案
问题: 14. 下列关于异常值的描述中,错误的是( )。
选项:
• A. 可以使用箱线图检测异常值
• B. 当异常值的数量不是很多时,可以直接将含有异常值的观测记录删除
• C. 可以将异常值视为缺失值,按处理缺失值的方法处理异常值
• D. 异常值的存在不属于数据质量问题,不会影响模型的预测能力
答案: 请关注公众号【渝粤搜题】查看答案
问题: 15. 大数据预处理中,下列哪一项是用来处理噪声数据的?( )
选项:
• A. 数渝粤教育据清洗
• B. 数据转化
• C. 数据江苏开放大学答案归约
• D. 数据抽样
答案: 请关注公众号【渝粤搜题】查看答案
问题: 16. 数据预处理的主要目的是( )。
选项:
• A. 确定数据的来源
• B. 改变数据的存储位置
• C. 提高数据的质量和挖掘效率
• D. 增加原始数据的数量
答案: 请关注公众号【渝粤搜题】查看答案
问题: 17. 分位数分组的基本思想是将样本( ),各组所包含的样本个数相同。
选项:
• A. 等分成若干份
• B. 按属性值大小排序
• C. 随机分组
• D. 按序分组
答案: 请关注公众号【渝粤搜题】查看答案
问题: 18. 下列哪一项不是常用的数据预处理步骤( )。
选项:
• A. 数据清洗
• B. 数据集成
• C. 数据归约
• D. 数据可视化
答案: 请关注公众号【渝粤搜题】查看答案
问题: 19. 以下哪种方法不适宜处理大数据中的异常值( )。
选项:
• A. 直接删除异常值
• B. 将异常值替换为平均值
• C. 将异常值视为缺失值,用插值法处理
• D. 直接将异常值赋值为极大值
答案: 请关注公众号【渝粤搜题】查看答案
问题: 20. 下列哪一项不属于数据预处理的目标( )。
选项:
• A. 提高数据质量
• B. 提高数据安全性
• C. 提高数据的可利用性
• D. 减少数据处理的复杂性
答案: 请关注公众号【渝粤搜题】查看答案
问题: 21. 下列关于缺失值的描述中,错误的是( )。
选项:
• A. 缺北京开放大学答案失值是指数据集中有些变量的一个或多个取值无法获得
• B. 数据缺失的现象大量存在
• C. 回归插补的方法不会改变数据分布
• D. 当缺失数据的记录所占比渝粤题库例在数据集中少于10%时,可以将缺失值直接删除
答案: 请关注公众号【渝粤搜题】查看答案
问题: 22. 下列有关SQL数据库的局限性,描述错误的是( )。
选项:
• A. 结构化数据建模
• B. 已有数据结构的变化成本高
• C. 空间利用率低
• D. 无法保证事务处理的可靠性
答案: 请关注公众号【渝粤搜题】查看答案
问题: 23. 数据仓库为什么可以帮助企业保持竞争力( )?
选项:
• A. 提供数据分析功能以及数据可视化和演示功能
• B. 数据仓库可以自动清理垃圾数据渝粤搜题
• C. 使用数据仓库可以节省存储空间
• D. 数据仓库提供了大量质量低下的数据供企业使用
答案: 请关注公众号【渝粤搜题】查看答案
问题: 24. 下列数据库中,属于文档数据库的是( )。
选项:
• A. Redi广东开放大学答上海开放大学答案案s国家开放大学答案
• B. Neo4j
• C. HBase
• D. MongoDB
答案: 请关注公众号【渝粤搜题】查看答案
问题: 25. 下列各项属于数据仓库的特点的是( )。
选项:
• A. 数据以主题为导向,提供决策支持
• B. 数据源单一
• C. 数据质量低
• D. 不支持历史数据分析
答案: 请关注公众号【渝粤搜题】查看答案
微信扫码添加好友
如二维码无法识别,可拨打 13662661040 咨询。