大数据算法
学校: 无
问题 1: 1. 在经典的水库抽样中,要求空间复杂性为O(k),是指与抽样大小有关,而与整个数据的数据量无关。
选项:
答案: 正确
问题 2: 1. 亚线性是指()等的消耗是输入规模o。()
选项:
• A. 时间
• B. 空间
• C. IO
• D. 通讯
答案: 时间
问题 3: 2. 计算在一个给定社交网络中平均每人的朋友个数,在不访问所有顶点的情况下,进行精确计算最少需要访问()个顶点。
选项:
• A. n²
• B. n+1
• C. 2n
• D. n-1
答案: n-1
问题 4: 1. 以下()不是衡量分析近似解代价与优化解代价差距的方法。
选项:
• A. Ratio Bound
• B. 相对误差
• C. 绝对误差
• D. (1-ℇ)-近似
答案: 绝对误差
问题 5: 2. 采用平面图的直径近似算法的动机是无法在要求的时间内得到()。
选项:
• A. 相似解
• B. 完整解
• C. 精确解
• D. 近似解
答案: 精确解
问题 6: 3. 利用平面图的直径近似算法得到的解,在最坏情况下,也不会小于最优解的()。
选项:
• A. 二分之一
• B. 三分之一
• C. 四分之一
• D. 十分之一
答案: 二分之一
问题 7: 4. 近似算法能给出一个优化问题的优化解。
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题 8: 5. Ratio Bound越大,则近似解越坏。()
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题 9: 1. 全0数组判定的近似算法的证据引理是:如果一次测试以大于等于p的概率获得一个证据,那么s=2/p轮测试得到证据的概率大于等于1/2。
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题 10: 2. 判定问题的近似解是指:输入满足某种性质或近似满足某种性质。
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题 11: 1. 数据流模型中,数据流是指来自某个域中的元素序列。()
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题 12: 2. 在数据流模型中,从数据流中可以计算简单的函数,如最大值、最小值、求和等,且处理这些函数时通常使用单个寄存器s。()
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题 13: 3. 在数据流模型中,内存远远大于数据的规模。()
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题 14: 1. 频繁元素计算算法有效的原因是源于()。
选项:
• A. 取近似解
• B. 证据引理
• C. 错误界限和k成反比
• D. Zipf原则
答案: 请关注公众号【渝粤搜题】查看答案
问题 15: 2. 在频繁元素计算算法中,当数据流中元素的总个数远大于估计值与真实值相差的最多值时,可以得到频繁项一个好的估计。
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题 16: 3. 在频繁元素计算算法中,计数器x减少的次数依赖于有几个减少计数器的步骤。()
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题 17: 1. 求最小生成树是一个贪心法,可以用()算法来解决。
选项:
• A. Prime
• B. 并行
• C. MG
• D. 内存
答案: 请关注公众号【渝粤搜题】查看答案
问题 18: 2. 对联通分量个数的估计可以利用随机化方法。
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题 19: 1. 如果一次测试以大于等于p的概率获得一个证据,那么s=2/p轮测试得到证据的概率大于等于3/4。
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题 20: 1. 现代计算机有复杂的存储层次,存储单元的访问是以块为单位的数据移动。()
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题 21: 2. 当内存不够或者算法设计不好时,如果数据量达到一定规模以上,运行时间会急剧增加。
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题 22: 1. 排序分为内部排序和外部排序,外部排序是因排序的数据很大,一次不能容纳全部的排序内容,在排序过程中需要访问外存。()
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题 23: 1. 在外排序的快速排序中,分割元素的选择非常重要。
选项:
• A. 正确
• B. 错误
答案: 请关注公众号【渝粤搜题】查看答案
问题 24: 1. 在内存中的二分搜索树中,通常使用()来维护树的平衡。()
选项:
• A. 置换
• B. 分裂
• C. 旋转
• D. 合并
答案: 请关注公众号【渝粤搜题】查看答案
问题 25: 2. 为更快地保存外部搜索树,可采取按BFS的顺序将其分割。()
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题 26: 1. B-树中右边的指针指向的是键值小于最右键值的子数。()
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题 27: 2. 在(a,b)-树中,a和b表示的是每个节点当中键值的上限和下限。()
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题 28: 1. 关于(a,b)-树的插入,插入涉及到的结点最多到树高+1。()
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题 29: 1. 构建KDB-树时,完成网格建立之后,计算每个网格中点的个数,并且存储在()中。
选项:
• A. 外存
• B. 数据库
• C. 寄存器
• D. 内存
答案: 请关注公众号【渝粤搜题】查看答案
问题 30: 2. KD树在()层使用水平线。
选项:
• A. 偶数层
• B. 奇数层
• C. 最底层
• D. 最高层
答案: 请关注公众号【渝粤搜题】查看答案
问题 31: 3. KdB-树的插入可以使用()的方法。
选项:
• A. 近似
• B. 置换
• C. 对数
• D. 重构
答案: 请关注公众号【渝粤搜题】查看答案
问题 32: 4. 基于位置的查找实际上是一种三维空间的查找。()
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题 33: 1. 对给定顶点邻接链表T,其一个欧拉回路可以以()IO复杂性求得。
选项:
• A. O (sort(N))
• B. O(scan(N))
• C. O(scan(N))IO
• D. IO(scan(N))
答案: 请关注公众号【渝粤搜题】查看答案
问题 34: 2. 为数T的每个结点标上子树大小的I/O复杂度为()。
选项:
• A. IO (sort(N))
• B. O (sort(N))
• C. IO(scan(N))
• D. O(scan(N))
答案: 请关注公众号【渝粤搜题】查看答案
问题 35: 3. 图中的独立集是指图当中点的集合,其任意两点之间不存在边。()
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题 36: 4. 外存算法最坏情况的I/O数位Ω(N)。()
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题 37: 1. 图算法包含三种计数,其中将图问题表示为有向无环图的估值问题的是()。
选项:
• A. 自举
• B. 缩图法
• C. 时间前向处理
• D. 连通分量
答案: 请关注公众号【渝粤搜题】查看答案
问题 38: 2. 在求最小生成树时,压缩后图中某条边的权值等于该边代表的所有边的权值最大值。()
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题 39: 3. 图的连通性算法可扩增为求图G最小生成树(MST)的算法。()
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题 40: 1. 在版本1的字数统计中,在Map里使用了一个数组H,其作用是为每一个出现的单词作()。
选项:
• A. 序列
• B. 基数
• C. 集合
答案: 请关注公众号【渝粤搜题】查看答案
问题 41: 1. “条纹法”的优点有()。
选项:
• A. 易于实现
• B. 对key-value对的排序和洗牌少得多
• C. 潜在对象更大
• D. 能更好地利用combiner
答案: 请关注公众号【渝粤搜题】查看答案
问题 42: 2. 关于单词共现矩阵的计算,说法正确的是()。
选项:
• A. 计算文本集合中词的共现矩阵
• B. 词的个数如果为N,输出为M*N的矩阵
• C. 是一种测量语义距离的方法
• D. 语义距离可用于许多语言处理任务
答案: 请关注公众号【渝粤搜题】查看答案
问题 43: 3. f(B|A)词对法必须确定所有a被传递到同一个combiner。()
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题 44: 4. 在“词对法”中,每个mapper处理一个句子。()
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题 45: 5. “词对法”的缺点是不易实现,排序和洗牌代价高。()
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题 46: 1. 用MR进行多重集相似连接算法的常见计算包括()。
选项:
• A. 三角函数
• B. 单元函数
• C. 合取函数
• D. 析取函数
答案: 请关注公众号【渝粤搜题】查看答案
问题 47: 2. 在repartition join的改进中,说法错误的是()。
选项:
• A. Map函数的输出键作为连接键
• B. Map函数的输出键变化为连接键和表名的组合。
• C. Partition函数中Hashcode仅从组合键的连接键计算
• D. Grouping函数仅根据连接键分组纪录
答案: 请关注公众号【渝粤搜题】查看答案
问题 48: 3. 等值连接不必在结果中去掉重复的属性。()
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题 49: 1. “推荐好友”是图算法在社交网络中的一种实际用例。()
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题 50: 1. 基于路径的算法的例子不包括()。
选项:
• A. 单源最短路径
• B. 最小生成树
• C. 分布式不动点运算
• D. 拓扑排序
答案: 请关注公众号【渝粤搜题】查看答案
问题 51: 2. 找到一个稠密图的最小生成树的算法易于并行化的原因是每个子图的()可以被并行计算。
选项:
• A. 边
• B. 顶点
• C. 结点
• D. 最小生成树
答案: 请关注公众号【渝粤搜题】查看答案
问题 52: 3. Dijkstra算法需要并行化。()
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题 53: 1. 缓存迭代的方法是()。
选项:
• A. 在Mapper前加入输入缓存
• B. 在Mapper后加入输出缓存
• C. 在Reducer前加入输入缓存
• D. 在Reducer后加入输出缓存
答案: 请关注公众号【渝粤搜题】查看答案
问题 54: 2. Reducer输入缓存的条件是使用静态划分方法,即意味着没有新的结点。()
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题 55: 1. 用Pregel计算子图同构问题,其三个步骤是()。
选项:
• A. 查询分解
• B. 搜索
• C. 迭代
• D. Join
答案: 请关注公众号【渝粤搜题】查看答案
问题 56: 2. 并行结点计算的终止条件是()。
选项:
• A. 消息传送到其他点后
• B. 所有顶点同时变为非活跃状态
• C. 迭代结束
• D. 没有信息传递
答案: 请关注公众号【渝粤搜题】查看答案
问题 57: 3. 关于并行节点计算,下列选项中关于节点叙述不准确的是()。
选项:
• A. 每一个节点接受上一个superstep发出的消息
• B. 执行相同的用户定义函数
• C. 所有节点根据用户定义函数修改它的值
• D. 没有额外工作要做时继续迭代
答案: 请关注公众号【渝粤搜题】查看答案
问题 58: 4. Pregel的编程形式,在执行计算的机器上每一阶段都利用整个图的全部状态。()
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题 59: 1. Wikipedia是众包案例的一种最成功的应用之一。()
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题 60: 2. 外包与众包的区别在于众包的参与者数量大且不固定的。()
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题 61: 3. 众包极大程度地使用了人本计算,因此它基本上等同于人本计算。()
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题 62: 1. 下列属于众包应用的例子有()。
选项:
• A. 验证码
• B. 机器翻译
• C. 图像搜索
• D. 数据库查询
答案: 请关注公众号【渝粤搜题】查看答案
问题 63: 2. 人脸识别是利用众包改进图像()的例子。
选项:
• A. 分类
• B. 区分
• C. 确认
• D. 搜索
答案: 请关注公众号【渝粤搜题】查看答案
问题 64: 3. 目前众包技术已经可以判断两幅画在艺术风格上是否一致。()
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题 65: 1. 在人机交互中从用户获取输入的方式有()。
选项:
• A. 调查
• B. 快速原型
• C. 可用性测试
• D. 认知走查
答案: 请关注公众号【渝粤搜题】查看答案
问题 66: 2. 众包中的参与者包括()。
选项:
• A. 请求者
• B. 平台
• C. 工人
• D. 评估者
答案: 请关注公众号【渝粤搜题】查看答案
问题 67: 3. 众包中质量控制/数据质量要考虑的问题不包括()。
选项:
• A. 可靠性
• B. 垃圾结果检测
• C. 标签共识
• D. 界面和交互设计
答案: 请关注公众号【渝粤搜题】查看答案
问题 68: 4. 难以核实主观任务是资格测试的缺点之一。()
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题 69: 5. 众包中工人的回报是多样的。()
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题 70: 1. 采用把大连通分量划分成高度连接的小连通分量基本思路的方法是()
选项:
• A. CrowdDB
• B. 混合人机工作流程
• C. 双层法
• D. 分批策略
答案: 请关注公众号【渝粤搜题】查看答案
问题 71: 2. 基于簇的HIT生成问题的优化目标是生成最小数目基于簇的HIT。()
选项:
答案: 请关注公众号【渝粤搜题】查看答案
问题 72: 3. 目前众包技术完全由计算机来完成。()
选项:
答案: 请关注公众号【渝粤搜题】查看答案
微信扫码添加好友
如二维码无法识别,可拨打 13662661040 咨询。