
大数据概论(专)
学校: 无
问题: 1. 关于聚类挖掘,表述错误的是:
选项:
• A. 好聚类的方法的标准是要产生高质量的聚类结果
• B. 聚类结果的好坏取决于相似性的度量方法以及具体实现
• C. 聚类结果的好坏与能否发现隐含模式无关
• D. 好的聚类结果应该有高类内相似性和低类间相似性这样的特征
答案: 请关注公众号【渝粤搜题】查看答案
问题: 2. 什么是存储在上海开放大学答案计算机内有结构的数据的集合?
选项:
• A. 数据库管理系统
• B. 数据库结构
• C. 数据库系统
• D. 数据库
答案: 请关注公众号【渝粤搜题】查看答案
问题: 3. 哪个不属于知识发现的步骤
选项:
• A. 数据集成
• B. 数据清理
• C. 数据选择
• D. 数据开发
答案: 请关注公众号【渝粤搜题】查看答案
问题: 4. 不属于社交网络特点的是
选项:
• A. 实时数据
• B. 完整数据
• C. 数据单一
• D. 海量用户
答案: 请关注公众号【渝粤搜题】查看答案
问题: 5. 单舆情的系统架构正确的是
选项:
• A. 规划-存储-采集-分析-报告-管控
• B. 规划-采集-分析-存储-报告-管控
• C. 规划-存储-分析-采集-报告-管控
• D. 规划-采集-存储-分析-报告-管控
答案: 请关注公众号【渝粤搜题】查看答案
问题: 6. 以下不属于网络舆情的主要来源的是
选项:
• A. 书信
• B. 论坛与BBS
• C. 微信
• D. QQ
答案: 请关注公众号【渝粤搜题】查看答案
问题: 7. 大数据可能带来(),但未必能够带来()
选项:
• A. 精确度;多样性
• B. 精确度;准确度
• C. 多样性;准确度
• D. 准确度;精确度
答案: 请关注公众号【渝粤搜题】查看答案
问题: 8. 数据清洗的方法不包括( )。
选项:
• A. 噪声数据清除
• B. 缺失值处理
• C. 一致性检查
• D. 重复数据记录处理
答案: 请关注公众号【渝粤搜题】查看答案
问题: 9. 计量单位从低到高,下面的说法正确的是( )
选项:
• A. GB< KB< MB< TB
• B. KB< MB< GB< TB
• C. EB< KB< MB< TB
• D. EB< MB< GB< TB
答案: 请关注公众号【渝粤搜题】查看答案
问题: 10. 智能健康手环的应用开发,体现了( )的数据采集技术的应用
选项:
• A. 统计报表
• B. 传感器
• C. 网络爬虫
• D. API接口
答案: 请关注公众号【渝粤搜题】查看答案
问题: 11. 属于高质量聚类分析的要求:①可扩展性 ②处理相同类型数据的能力 ③发现任意形状的能力 ④领域知识参数输入的最大化 ⑤处理噪声数据的能力 ⑥数据输入顺序敏感
选项:
• A. ①③⑥
• B. ①③⑤
• C. ①②③④⑤⑥
• D. ②④⑥
答案: 请关注公众号【渝粤搜题】查看答案
问题: 12. 社群结构聚合探测算法的步骤中,()条件满足时,算法会停止并输出探测结果。
选项:
• A. maxφpq≤0
• B. maxφpq
• C. maxφpq<0
• D. 0
• E. max渝粤搜题φpq≥0
答案: 请关注公众号【渝粤搜题】查看答案
问题: 13. 以下说法错误的是
选项:
• A. FP-树频集算法是针对Apriori算法缺点进行改进后的算法
• B. APRIORI算法最大的缺点是复杂度太高
• C. FP-树频集算法虽然克服了Apriori算法复杂度的问题,但是获得的结果却是不靠谱的
• D. 关联规则在使用时的两个指标是支持度和置信度
答案: 请关注公众号【渝粤搜题】查看答案
问题: 14. 关联规则的基本概念中错误的是
选项:
• A. K项集指的是K个项的集合
• B. 项集频率指的是项集所有交易中出现的次数
• C. 置信度是项集出现次数除以总的交易次数
• D. 相对支持度指的是项集出现次数除以总的交易次数
答案: 请关注公众号【渝粤搜题】查看答案
问题: 15. K均值算法的缺点():①经常终止于局部最优解②需要先验的领域知识③对噪声和离群点比较敏感④不能发现任意类型的类⑤不能处理分类变量
选项:
• A. ②④
• B. ①②③④⑤
• C. ①③⑤
• D. ①③
答案: 请关注公众号【渝粤搜题】查看答案
问题: 16. 什么是大数据使用的最可靠方法?
选项:
• A. 大数据与样本数据结合
• B. 样本数据源
• C. 规模大
• D. 大数据源
答案: 请关注公众号【渝粤搜题】查看答案
问题: 17. 下列关于数据重组的说法中,错误的是( )。
选项:
• A. 数据重组实现的关键在于多源数据融合和数据集成
• B. 数据重组能够使数据焕发新的光芒
• C. 数据重组有利于实现新颖的数据模式创新
• D. 数据重组是数据的重新生产和重新采集
答案: 请关注公众号【渝粤搜题】查看答案
问题: 18. 大数据的最显著特征是( )。
选项:
• A. 数据价值密度高
• B. 数据规模大
• C. 数据类型多样
• D. 数据处理速度快
答案: 请关注公众号【渝粤搜题】查看答案
问题: 19. 美国海军军官莫里通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与洋流可能发生的地点。这体现了大数据分析理念中的( )。
选项:
• A. 在分析效果上更追究效率而不是绝对精确
• B. 在数据规模上强调相对数据而不是绝对数据
• C. 在数据基础上倾向于全体数据而不是抽样数据
• D. 在分析方法上更注重相关分析而不是因果分析
答案: 请关注公众号【渝粤搜题】查看答案
问题: 20. 下列关于舍恩伯格对大数据特点的说法中,错误的是( )。
选项:
• A. 数据价值密度高
• B. 数据规模大
• C. 数据处理速度快
• D. 数据类型多样
答案: 请关注公众号【渝粤搜题】查看答案
问题: 21. 单选 Hive的数据计算使用
选项:
• A. HBASE
• B. HDFS
• C. PIG
• D. MapReduce
答案: 请关注公众号【渝粤搜题】查看答案
问题: 22. 单选 Hadoop生态系统中,最核心的设计是()
选项:
• A. TEZ和PIG
• B. HDFS和MAPREDUCE
• C. HBASE和STORM
• D. HIVE和HDFS
答案: 请关注公众号【渝粤搜题】查看答案
问题: 23. 单选 Web挖掘中内容挖掘的基本技术是()
选项:
• A. 技术挖掘
• B. 图片挖掘
• C. 数据挖掘
• D. 文本挖掘
答案: 请关注公众号【渝粤搜题】查看答案
问题: 24. 布尔权重是指如果某个词条在一篇文本中出现,则将其权值定义为(),否则定义为()
选项:
• A. 0,2
• B. 0,1
• C. 2,0
• D. 1,0
答案: 请关注公众号【渝粤搜题】查看答案
问题: 25. 以下哪个不是推荐系统的评测指标
选项:
• A. 新颖性
• B.渝粤题库 覆盖率
• C. 统一性
• D. 惊喜度
答案: 请关注公众号【渝粤搜题】查看答案
问题: 26. 分类变量使用( )建立预测模型。
选项:
• A. 离散树
• B. 分类树
• C. 决策树
• D. 回归树
答案: 请关注公众号【渝粤搜题】查看答案
问题: 27. 对线下零售而言,做好大数据分析应用的前提是( )
选项:
• A. 扩大营业面积
• B. 增加统计种类
• C. 开展优惠促销
• D. 增加数据来源
答案: 请关注公众号【渝粤搜题】查看答案
问题: 28. 万维网的实施国家是( )
选项:
• A. 美国
• B. 印度
• C. 德国
• D. 英国
答案: 请关注公众号【渝粤搜题】查看答案
问题: 29. 一切皆可连,任何数据之间逻辑上都有可能存在联系,这体现了大数据思维维度中的( )
选项:
• A. 相关思维
• B. 因果思维
• C. 定量思维
• D. 实验思维
答案: 请关注公众号【渝粤搜题】查看答案
问题: 30. 下列关于网络用户行为的说法中,错误的是( )。
选项:
• A. 用户的隐私安全很难得以规范保护
• B. 网络公司能够捕捉到用户在其网站上的所有行为
• C. 用户离散的交互痕迹能够为企业提升服务质量提供参考
• D. 数字轨迹用完即自动删除
答案: 请关注公众号【渝粤搜题】查看答案
问题: 31. 以下说法正确的是
选项:
• A. Spark可以基于HDFS这样分布式文件存储系统也可以基于Tachyon这样基于内存分布式文件存储系统
• B. Spark只能基于HDFS这样分布式文件存储系统
• C. Spark既无法基于HDFS这样分布式文件存储系统也无法基于Tachyon这样基于内存分布式文件存储系统
• D. Spark只能基于Tachyon这样基于内存分布式文件存储系统
答案: 请关注公众号【渝粤搜题】查看答案
问题: 32. 能同时进行交互式计算,批处理,流式计算的计算框架为
选项:
• A. Shark
• B. Spark
• C. Storm
• D. Impala
答案: 请关注公众号【渝粤搜题】查看答案
问题: 33. Storm属于()计算
选项:
• A. 云
• B. 批处理
• C. 交互式
• D. 流式
答案: 请关注公众号【渝粤搜题】查看答案
问题: 34. Spark生态图中,()提供了图存储结构和常见的图算法
选项:
• A. Tac北京开放大学答案hyon
• B. SharkSQL
• C. SparkStreaming
• D. GraphxGraphParallel
答案: 请关注公众号【渝粤搜题】查看答案
问题: 35. 中国互联网购物者占互联网使用者的比例为:
选项:
• A. 0.57
• B. 0.56
• C. 0.5
• D. 0.55
答案: 请关注公众号【渝粤搜题】查看答案
问题: 36. RDD中进行map,filter,groupBy等操作属于()
选项:
• A. Acter
• B. Transformation
• C. Change
• D. Active
答案: 请关注公众号【渝粤搜题】查看答案
问题: 37. 大数据时代,数据使用的关键是( )。
选项:
• A. 数据收集
• B. 数据再利用
• C. 数据分析
• D. 数据存储
答案: 请关注公众号【渝粤搜题】查看答案
问题: 38. 下列关于数据交易市场的说法中,错误的是( )。
选项:
• A. 数据交易市场通过生产数据、研发和分析数据,为数据交易提供帮助
• B. 商业化的数据交易活动催生了多方参与的第三方数据交易市场
• C. 数据交易市场是大数据产业发展到一定程度的产物
• D. 数据交易市场是大数据资源化的必然产物
答案: 请关注公众号【渝粤搜题】查看答案
问题: 39. 数据仓库的最终目的是( )。
选项:
• A. 为用户和业务部门提供决策支持
• B. 开发数据仓库的应用分析
• C. 建立数据仓库逻辑模型
• D. 收集业务需求
答案: 请关注公众号【渝粤搜题】查看答案
问题: 40. K均值算法的缺点()①经常终止于局部最优解②需要先验的领域知识③对噪声和离群点比较敏感④不能发现任意类型的类⑤不能处理分类变量
选项:
• A. ①②③④⑤
• B. ①③⑤
• C. ②④
• D. ①③
答案: 请关注公众号【渝粤搜题】查看答案
问题: 41. 关于内容深度理解建立索引说法正确的是
选项:
• A. 内容索引与客观因素有很大关系
• B. 索引分为客观索引和主观索引
• C. 内容索引又可以分为单索引和双索引
• D. 客观索引与文档内容有关
答案: 请关注公众号【渝粤搜题】查看答案
问题: 42. 中国的网络消费者比线下消费者更( )。
选项:
• A. 年轻和贫困
• B. 年老和富裕
• C. 年老和贫困
• D. 年轻和富裕
答案: 请关注公众号【渝粤搜题】查看答案
问题: 43. 大数据获取的个人信息比传统调研获得的个人信息真实性( )。
选项:
• A. 更低
• B. 更高
• C. 不确定
• D. 相同
答案: 请关注公众号【渝粤搜题】查看答案
问题: 44. DMP分为( )和( )。
选项:
• A. 开放式DMP;封闭式DMP
• B. 开放式DMP;私有式DMP
• C. 单一式DMP;多元式DMP
• D. 单一式DMP;封闭式DMP
答案: 请关注公众号【渝粤搜题】查看答案
问题: 45. 阿里巴巴旗下的数据管理平台,被称为:
选项:
• A. 招财宝
• B. 达摩盘
• C. 蚂蚁花呗
• D. 支付宝
答案: 请关注公众号【渝粤搜题】查看答案
问题: 46. 万维网之父是( )。
选www.yuyue-edu.cn项:
• A. 蒂姆•伯纳斯-李
• B. 斯科特•布朗
• C. 舍恩伯格
• D. 彼得•德鲁克
答案: 请关注公众号【渝粤搜题】查看答案
问题: 47. Mac OS系统的开发者是()。
选项:
• A. 苹果公司
• B. IBM公司
• C. 微软公司
• D. 惠普公司
答案: 请关注公众号【渝粤搜题】查看答案
问题: 48. 下列论据中,能够支撑"大数据无所不能”的观点的是( )。
选项:
• A. 大数据具有非常高的成本
• B. 大数据存在泡沫
• C. 互联网金融打破了传统的观念和行为
• D. 个人隐私泄露与信息安全担忧
答案: 请关注公众号【渝粤搜题】查看答案
问题: 49. Spark生态图中,()提供了一个机器学习的算法库
选项:
• A. Tachyon
• B. MLBaseMachineLearning
• C. SharkSQL
• D. GraphxGraphParallel
答案: 请关注公众号【渝粤搜题】查看答案
问题: 50. ()充分利用了MapReduce和HDFS的扩展性和容错性,是基于MapReduce开发的数据挖掘,机器学习库
选项:
• A. YARN
• B. STORM
• C. MaHout
• D. MAPREDUCE
答案: 请关注公众号【渝粤搜题】查看答案
问题: 51. 特征抽取常用算法的互信息,互信息值()表示词条和类别的共现程度()
选项:
• A. 越大,越大
• B. 越大,越小
• C. 越小,越小
• D. 越小,越大
答案: 请关注公众号【渝粤搜题】查看答案
问题: 52. RDD中进行count,collect,save等操作属于()
选项:
• A. Change
• B. Transformation
• C. Acti江苏开放大学答案ve
• D. Acter
答案: 请关注公众号【渝粤搜题】查看答案
问题: 53广东开放大学答案. 根据PageRank算法的基本思想,以下哪种情况说明了页面的重要性
选项:
• A. 被多次引用的页面
• B. 没有被多次引用的页面
• C. 页面的重要性无法传递
• D. 被非重要的页面引用的页面
答案: 请关注公众号【渝粤搜题】查看答案
问题: 54. Web应用挖掘中最有效而且简单的分析方法是
选项:
• A. 数据挖掘
• B. 点击流分析
• C. 内容分析
• D. 结构分析
答案: 请关注公众号【渝粤搜题】查看答案
问题: 55. Hadoop生态系统中,集群的资源管理系统是()
选项:
• A. STORM
• B.国家开放大学答案 YARN
• C. HDFS
• D. MAPREDUCE
答案: 请关注公众号【渝粤搜题】查看答案
问题: 56. Hadoop提供的MapReduce的编程方式中,()是最原始的方式
选项:
• A. HadoopStreaming
• B. Java
• C. HadoopPipes
• D. PHP
答案: 请关注公众号【渝粤搜题】查看答案
问题: 57. 大数据的起源是( )
选项:
• A. 互联网
• B. 金融
• C. 公共管理
• D. 电信
答案: 请关注公众号【渝粤搜题】查看答案
问题: 58. 智慧城市的智慧之源是( )
选项:
• A. 大数据
• B. 数字城市
• C. 云计算
• D. 物联网
答案: 请关注公众号【渝粤搜题】查看答案
问题: 59. 假设一种基因同时导致两件事情,一是使人喜欢抽烟,二是使这个人和肺癌就是( )关系,而吸烟和肺癌则是()关系
选项:
• A. 因果并列
• B. 并列相关
• C. 因果相关
• D. 相关因果
答案: 请关注公众号【渝粤搜题】查看答案
问题: 60. 传统大数据质量清洗的特点有:
选项:
• A. 确定性
• B. 强类型性
• C. 非确定性
• D. 协调式的
答案: 请关注公众号【渝粤搜题】查看答案
问题: 61. 以下选项中属于数据的作用的是( )。
选项:
• A. 建立信心
• B. 沟通
• C. 欣赏
• D. 验证假设
答案: 请关注公众号【渝粤搜题】查看答案
问题: 62. 慈铭体检机构的 O2O健康管理产品,由( )组成。
选项:
• A. 保健品
• B. 手机APP
• C. 智能运动手腕
• D. 健康管理云平台
答案: 请关注公众号【渝粤搜题】查看答案
问题: 63. 当前大数据技术的基础包括( )
选项:
• A. 分布式数据库
• B. 分布式文件系统
• C. 分布式并行计算
• D. 关系型数据库
答案: 请关注公众号【渝粤搜题】查看答案
问题: 64. 可视化高维展示技术在展示数据之间的关系以及数据分析结果方面作( )
选项:
• A. 能够直观反映成对数据之间的空间关系
• B. 能够直观反映多维数据之间的空间关系
• C. 提供高性能并行计算技术的强力支撑
• D. 能够动态演化事物的变化及变化的规律
• E. 能够静态演化事物的变化及变化的规律
答案: 请关注公众号【渝粤搜题】查看答案
问题: 65. 下列关于计算机存储容量单位换算关系的公式中,正确的是( )
选项:
• A. 1KB=1024Byte
• B. 1GB=1024MB
• C. 1GB=1024KB
• D. 1GB=1012KB
• E. 1KB=1012Byte
答案: 请关注公众号【渝粤搜题】查看答案
问题: 66. 避免"数据孤岛”的方法包括:
选项:
• A. 关键匹配变量
• B. 利用样本框
• C. 数据输入
• D. 数据融合
答案: 请关注公众号【渝粤搜题】查看答案
问题: 67. 以下属于机器学习的是:
选项:
• A. 监督式学习
• B. 非监督式学习
• C. 强化学习
• D. 半监督式学习
答案: 请关注公众号【渝粤搜题】查看答案
问题: 68. 机器学习的四大类分析技术的主要算法包括()
选项:
• A. 分类与预测
• B. 关联分析
• C. 聚类分析
• D. 描述性统计
答案: 请关注公众号【渝粤搜题】查看答案
问题: 69. 大数据作为一种数据集合,当我们使用这个概念的时候,实际包含有哪几层含义?
选项:
• A. 构成复杂
• B. 变化很快
• C. 蕴含大价值
• D. 数据很大
答案: 请关注公众号【渝粤搜题】查看答案
问题: 70. 用户建模模块的功能是
选项:
• A. 对用户进行识别和分类
• B. 获取、表示用户的兴趣偏好
• C. 帮助用户找到需要的东西
• D. 存储或者修改用户的兴趣偏好
答案: 请关注公众号【渝粤搜题】查看答案
问题: 71. 下列关于脏数据的说法中,正确的是( )。
选项:
• A.云南开放大学答案 数据不完整
• B. 意义不明确
• C. 格式不规范
• D. 与实际业务关系不大
• E. 编码不统一
答案: 请关注公众号【渝粤搜题】查看答案
问题: 72. 2012年"中央1号文件”提出,要全面推进农业农村信息化,着力提高()的信息服务水平。
选项:
• A. 质量安全控制
• B. 市场流通
• C. 文化交流
• D. 农业生产经营
答案: 请关注公众号【渝粤搜题】查看答案
问题: 73. 传统数据密集型行业积极探索和布局大数据应用的表现是( )。
选项:
• A. 提高分析挖掘能力
• B. 投资入股互联网电商行业
• C. 实现科学决策与运营
• D. 自行开发数据产品
• E. 打通多源跨域数据
答案: 请关注公众号【渝粤搜题】查看答案
问题: 74. 中国电信把自己的大数据开发分为:
选项:
• A. 广告类应用
• B. 商品类应用
• C. 服务类应用
• D. 媒体类应用
答案: 请关注公众号【渝粤搜题】查看答案
问题: 75. 根据麦肯锡的预测,随着大数据的普及,全球零售业和医疗行业的利润将会减少。
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题: 76. 宁家骏委员指出,发展大数据的应用,有助于促进医疗改革。
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题: 77. 大数据的数据类型包括网络日志、音频、视频、图片、地理位置信息等等。 ()
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题: 78. 大数据的起始计量单位至少是 MB。()
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题: 79. 在没有大数据的条件下,人才的发现与选拔都很难做到"全信息”,大数据能够帮助人们解决这个问题。
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题: 80. 大数据的应用之一是,促进健康管理的个性化和多元化。
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题: 81. 由于历史的原因,我国医院的信息化建设层次不齐、水平不一。
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题: 82. 网球比赛,与其他体育项目一样,涉及大量数据。
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题: 83. 谷歌流感趋势充分体现了数据重组和扩展对数据价值的重要意义。
选渝粤教育项:
答案: 请关注公众号【渝粤搜题】查看答案
问题: 84. 对于企业来说,给用户进行各种促销或者实施运营策略的时机也比较重要,而且对不同兴趣偏好的用户最好集中处理。
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题: 1. 当前社会中,最为突出的大数据环境是( )
选项:
• A. 互联网
• B. 物联网
• C. 自然资源
• D. 综合国力
答案: 请关注公众号【渝粤搜题】查看答案
问题: 2. 可以对大数据进行深度分析的平台工具是( )
选项:
• A. 第二代机器学习工具
• B. 第一代机器学习工具
• C. 未来机器学习工具
• D. 传统的机器学习和数据分析肛具
答案: 请关注公众号【渝粤搜题】查看答案
问题: 3. 关于大数据在社会综合治理中的作用,以下理解不正确的是( )。
选项:
• A. 大数据的运用有利于走群众路线
• B. 大数据的运用能够维护社会治安
• C. 大数据的运用能够加强交通管理
• D. 大数据的运用能够杜绝抗生素的滥用
答案: 请关注公众号【渝粤搜题】查看答案
问题: 4. 关于推荐系统的说法错误的是
选项:
• A. 推荐系统经历了很短的时间形成
• B. 推荐系统的架构为离线计算-在线计算-推荐引擎APP
• C. 推荐系统的常见表现形式有猜你喜欢、买了又买、精品推荐等
• D. 推荐系统的相关技术包括机器学习及数据挖掘算法等
答案: 请关注公众号【渝粤搜题】查看答案
微信扫码添加好友
如二维码无法识别,可拨打 13662661040 咨询。