国开搜题

中国大学MOOC数据采集与网络爬虫考核作业参考原题试题

来源：百年教育职业培训中心　更新时间：2024-12-07 05:37:56

2024秋最新《中国大学MOOC数据采集与网络爬虫考核作业参考原题试题》形考作业试题题库、期末题库考试说明:本人针对该科精心汇总了历年题库及答案，形成一个完整的题库，并且每年都在更新。该题库对考生的复

2024秋最新《中国大学MOOC数据采集与网络爬虫考核作业参考原题试题》形考作业试题题库、期末题库

考试说明:本人针对该科精心汇总了历年题库及答案，形成一个完整的题库，并且每年都在更新。该题库对考生的复习、作业和考试起着非常重要的作用，会给您节省大量的时间。做考题时，利用本文档中的查找工具，把考题中的关键字输到查找工具的查找内容框内，就可迅速查找到该题答案。本文库超星学习通、知到智慧树、国家开放大学、广东开放大学、江苏开放大学、上海开放大学、云南开放大学、芯位教育、云慕学苑、职教云、川农在线、长江雨课堂、安徽继续教育平台、青书学堂、睿学在线、成教云、京人平台、绎通继教云、学起Plus、云上河开、河南继续教育、四川开放大学、良师在线、继教云、日照专业技术人员继续教育、麦能网、21tb、168网校、云班课、电大中专、learnin、西财在线等平台复习试题与答案，敬请查看。

课程题目试题是随机的，请按题目关键词查找（或按Ctrl+F输入题目中的关键词，尽量不要输入整个题目，不要复制空格，连续的几个字就行）

本文由【大象答案】微信公众号提供，禁止复制盗取，违者必究

本文由【大象答案】微信公众号提供，禁止复制盗取，违者必究

本文由【大象答案】微信公众号提供，禁止复制盗取，违者必究

数据采集与网络爬虫

学校: 无

问题 1: 1. 下列选项中，不属于Python开发网络爬虫优势的是（）。

选项:

• A. 语法简洁，容易上手

• B. 开发效率高

• C. 模块丰富

• D. 运行速度快、性能强

答案: 运行速度快、性能强

问题 2: 2. 下列选项中，关于网络爬虫描述错误的是（）。

选项:

• A. 聚焦网络爬虫可以抓取指定网站的数据

• B. 通用网络爬虫是可以访问全互联网资源的网络爬虫

• C. 增量式网络爬虫只能抓取新产生的网页或内容发生变化的网页

• D. 聚焦网络爬虫通常用于实现搜索引擎

答案: 聚焦网络爬虫通常用于实现搜索引擎

问题 3: 3. 下列选项中，表示Robots协议禁止网络爬虫访问的是（）。

选项:

• A. User-agent

• B. Disallow

• C. Allow

• D. Sitemap

答案: Disallow

问题 4: 4. 下列选项中，不属于反爬虫应对策略的是（）。

选项:

• A. 添加User-Agent字段

• B. 降低访问频率

• C. 反复使用同一IP地址抓取数据

• D. 识别验证码

答案: 反复使用同一IP地址抓取数据

问题 5: 5. 下列选项中，关于聚焦网络爬虫工作原理描述错误的是（）。

选项:

• A. 聚焦网络爬虫种子URL只能是一个

• B. 聚焦网络爬虫会将与目标无关的URL过滤掉

• C. 聚焦网络爬虫会根据爬行策略，在URL队列中确定URL的优先级

• D. 聚焦网络爬虫会循环抓取数据直到满足条件为止

答案: 聚焦网络爬虫种子URL只能是一个

问题 6: 6. 关于 Python 程序格式框架的描述，以下选项中错误的是( )

选项:

• A. Python语言的缩进可以采用 Tab 键实现。

• B. Python单层缩进代码属于之前最邻近的一行非缩进代码，多层缩进代码根据缩进关系决定所属范围

• C. 判断、循环、函数等语法形式能够通过缩进包含一批 Python 代码，进而表达对应的语义

• D. Python语言不采用严格的“缩进”来表明程序的格式框架

答案: Python语言不采用严格的“缩进”来表明程序的格式框架

问题 7: 7. 以下选项中，不是Python对文件的打开模式的是（）

选项:

• A. ‘+’

• B. ‘w’

• C. ‘c’

• D. ‘r’

答案: 请关注公众号【大象答案】查看答案

问题 8: 8. str=“Lingyishuju”,请问下列哪个选项可以截取出“Lingyi”（）

选项:

• A. str[1:6]

• B. str[1:7]

• C. str[0:5]

• D. str[0:6]

答案: 请关注公众号【大象答案】查看答案

问题 9: 9. 长度为100的Python列表、元组和字符串中最后一个元素的下标为（）

选项:

• A. -1

• B. N

• C. 100

• D. 101

答案: 请关注公众号【大象答案】查看答案

问题 10: 10. 以下不能创建一个字典的语句是（）

选项:

• A. dict1 = {}

• B. dict2 = { 3 : 5 }

• C. dict3 = {[1,2,3]: “uestc”}

• D. dict4 = {(1,2,3): “uestc”}

答案: 请关注公众号【大象答案】查看答案

问题 11: 11. python不支持的数据类型有( )

选项:

• A. char

• B. int

• C. ﬂoat

• D. list

答案: 请关注公众号【大象答案】查看答案

问题 12: 12. 关于字符串下列说法错误的是( )

选项:

• A. 字符应该视为长度为1的字符串

• B. 字符串以\0标志字符串的结束

• C. 既可以用单引号,也可以用双引号创建字符串

• D. 在三引号字符串中可以包含换行回车等特殊字符

答案: 请关注公众号【大象答案】查看答案

问题 13: 13. Python如何定义一个函数( )

选项:

• A. class( arg1, arg2,…argN)

• B. function (arg1,arg2,…argN)

• C. def f(arg1,arg2,…argN):

• D. def ( arg1, arg2,…argN)

答案: 请关注公众号【大象答案】查看答案

问题 14: 14. Robots协议可以限制爬虫程序采集某些网页的数据。

选项:

答案: 请关注公众号【大象答案】查看答案

问题 15: 15. 网络爬虫是一个模拟真人浏览互联网行为的程序。

选项:

答案: 请关注公众号【大象答案】查看答案

问题 16: 16. 网络爬虫可以爬取网络上任意数据。

选项:

答案: 请关注公众号【大象答案】查看答案

问题 17: 17. 通用网络爬虫会访问与预定主题相关的网页。

选项:

答案: 请关注公众号【大象答案】查看答案

问题 18: 18. 网络爬虫程序只能使用Python语言进行开发。

选项:

答案: 请关注公众号【大象答案】查看答案

问题 19: 19. python是一种跨平台、开源、免费的高级动态编程语言。( )

选项:

答案: 请关注公众号【大象答案】查看答案

问题 20: 20. python的变量无需提前声明( )

选项:

答案: 请关注公众号【大象答案】查看答案

问题 21: 21. 在Python中可以使用if作为变量名。( )

选项:

答案: 请关注公众号【大象答案】查看答案

问题 22: 22. 不同数据类型之间是不能进行运算的,但是不同数据类型可以相互转换。( )

选项:

答案: 请关注公众号【大象答案】查看答案

问题 23: 23. “==”的作用是赋值( )

选项:

答案: 请关注公众号【大象答案】查看答案

问题 24: 24. 集合(set)是一个无序的不重复元素序列。( )

选项:

答案: 请关注公众号【大象答案】查看答案

问题 25: 25. 如果仅仅是用于控制循环次数,那么使用for i in range(20)和for i in range(20, 40)的作用是等价的。( )

选项:

答案: 请关注公众号【大象答案】查看答案

问题 26: 26. int()函数是内建函数,内建函数可以直接调用。( )

选项:

答案: 请关注公众号【大象答案】查看答案

问题 27: 27. 列表和元组都可作为字典的“键”( )

选项:

答案: 请关注公众号【大象答案】查看答案

问题 28: 28. Python集合中的元素可以是列表。( )

选项:

答案: 请关注公众号【大象答案】查看答案

问题 29: 1. 下面关于selenium爬虫哪个代码描述是错误的( )

选项:

• A. driver.get()用于打开URL指定的网页

• B. ﬁnd_element_by_*的方法来匹配要查找的元素

• C. send_keys方法可以用来模拟键盘输入操作

• D. 用close()方法并关闭多个页面并退出浏览器

答案: 请关注公众号【大象答案】查看答案

问题 30: 2. 下列选项中，用于根据指定URL地址访问页面的方法是（）。

选项:

• A. get()

• B. post()

• C. head()

• D. put()

答案: 请关注公众号【大象答案】查看答案

问题 31: 3. 下列选项中，关于显示等待和隐式等待描述错误的是（）。

选项:

• A. 隐式等待就是设置一个全局的最大等待时间

• B. 显式等待会先指定某个条件，再设置最长等待时间

• C. 隐式等待可作用于单个元素

• D. 显示等待只能作用于单个元素

答案: 请关注公众号【大象答案】查看答案

问题 32: 4. 下列选项中，关于Selenium描述错误的是（）。

选项:

• A. Selenium是一个开源的便携式自动化测试工具

• B. Selenium可以直接在浏览器上运行

• C. Selenium自身携带浏览器，并支持浏览器的功能

• D. Selenium可以根据指令自动加载网页或判断网页上是否发生动作

答案: 请关注公众号【大象答案】查看答案

问题 33: 5. 以下那个选项属于selenium爬虫索引定位( )

选项:

• A. WebElement xpath = driver.ﬁndElement(By.xpath("//input"))

• B. WebElementxpath=river.ﬁndElement(By.xpath( //input[3] ))

• C. WebElementxpath=driver.ﬁndElement(By.xpath( //*[@id='su' and @type='submit'] ))

• D. WebElement xpath=driver.ﬁndElement(By.xpath( //div[@class='qrcode-text']/p/b[text()='百度'] ))

答案: 请关注公众号【大象答案】查看答案

问题 34: 6. 下列选项中，通过类名定位元素的方法是（）。

选项:

• A. find_element_by_ name()

• B. find_element_by_class_name()

• C. find_element_by_id()

• D. find_element_by_tag_name()

答案: 请关注公众号【大象答案】查看答案

问题 35: 7. 下列选项中，属于Chrome浏览器驱动程序的是（）。

选项:

• A. ChromeDriver

• B. geckodriver

• C. operachromiumdriver

• D. IEDriverServer

答案: 请关注公众号【大象答案】查看答案

问题 36: 8. 下列选项中，用于根据指定URL地址访问页面的方法是（）。

选项:

• A. get()

• B. delete()

• C. head()

• D. put()

答案: 请关注公众号【大象答案】查看答案

问题 37: 9. WebDiver必须配置系统环境变量中才能使用。（）

选项:

答案: 请关注公众号【大象答案】查看答案

问题 38: 10. selenium是开源软件,主要依靠社区论坛来解决技术问题。( )

选项:

答案: 请关注公众号【大象答案】查看答案

问题 39: 11. selenium爬虫浏览器的大小是不可调的。( )

选项:

答案: 请关注公众号【大象答案】查看答案

问题 40: 12. Selenium自身携带浏览器。（）

选项:

答案: 请关注公众号【大象答案】查看答案

问题 41: 13. 使用Selenium可以抓取动态网页中的数据。（）

选项:

答案: 请关注公众号【大象答案】查看答案

问题 42: 14. Selenium Web驱动程序需要服务器安装,测试脚本不能直接与浏览器交互。( )

选项:

答案: 请关注公众号【大象答案】查看答案

问题 43: 15. Selenium爬虫适用于单击下一页url保持不变的情况。( )

选项:

答案: 请关注公众号【大象答案】查看答案

问题 44: 16. requests爬虫比Selenium爬虫更像真正用户在操作。( )

选项:

答案: 请关注公众号【大象答案】查看答案

问题 45: 17. 安装的WebDriver版本可以与浏览器版本不同。（）

选项:

答案: 请关注公众号【大象答案】查看答案

问题 46: 1. 下列选项中，属于文档型数据库的是（）。

选项:

• A. MongoDB

• B. Redis

• C. MySQL

• D. SqlServer

答案: 请关注公众号【大象答案】查看答案

问题 47: 2. 下列选项中，用于创建与MongoDB数据库连接的是（）。

选项:

• A. client = MongoClient()

• B. client = MongoClient('localhost',27017)

• C. client = MongoClient('mongodb://localhost:270170')

• D. db = client.database_test

答案: 请关注公众号【大象答案】查看答案

问题 48: 3. 下列选项中，表示pymongo模块中集合的是（）。

选项:

• A. MongoClient对象

• B. DataBase对象

• C. Collection对象

• D. Cursor对象

答案: 请关注公众号【大象答案】查看答案

问题 49: 4. 下列选项中，用于向Redis数据库中增加键值对的方法是（）。

选项:

• A. set()

• B. get()

• C. appended()

• D. delete()

答案: 请关注公众号【大象答案】查看答案

问题 50: 5. 下列选项中，属于关系型数据库的是（）。

选项:

• A. 列存储数据库

• B. 键值存储数据库

• C. 文档型数据库

• D. 行存储数据库

答案: 请关注公众号【大象答案】查看答案

问题 51: 6. 键值存储数据采用文档结构存储数据。（）

选项:

答案: 请关注公众号【大象答案】查看答案

问题 52: 7. redis模块无须安装便可以直接操作Redis数据库。（）

选项:

答案: 请关注公众号【大象答案】查看答案

问题 53: 8. MongoDB属于关系型数据库。（）

选项:

答案: 请关注公众号【大象答案】查看答案

问题 54: 9. Redis数据库中的数据都是以键值对的形式进行存储的。（）

选项:

答案: 请关注公众号【大象答案】查看答案

问题 55: 10. pymogo模块find_one()方法用于查询集合中的一条文档。（）

选项:

答案: 请关注公众号【大象答案】查看答案

问题 56: 1. 下列选项中，关于进程的描述错误的是（）。

选项:

• A. 进程是系统进行资源分配的最小单位

• B. 进程拥有自己的内存空间

• C. 进程之间数据不共享

• D. 进程的存在必须依赖线程

答案: 请关注公众号【大象答案】查看答案

问题 57: 2. 下列选项中，关于多线程爬虫的述错误的是（）。

选项:

• A. 开启的线程数量越多，程序运行速度越快

• B. 多线程爬虫将多线程技术运用网络爬虫中

• C. 多线程爬虫使用队列是为了保证安全地使用多线程采集网页数据

• D. 通常情况下，多程爬虫会开启多个线程抓取网页和解析网页

答案: 请关注公众号【大象答案】查看答案

问题 58: 3. 下列选项中，表示先进先出队列的类是（）。

选项:

• A. Queue

• B. LifoQueue

• C. PriorityQueue

• D. EmptyQueue

答案: 请关注公众号【大象答案】查看答案

问题 59: 4. python中的pool是用于多进程爬虫的库,可以自定义多进程的数量。( )

选项:

答案: 请关注公众号【大象答案】查看答案

问题 60: 5. 爬虫容错处理(try..except..else)如果try部分没有异常,那么将运行except,而跳过else( )

选项:

答案: 请关注公众号【大象答案】查看答案

问题 61: 6. 影响网络爬虫速度的因素主要是网络I/O操作。（）

选项:

答案: 请关注公众号【大象答案】查看答案

问题 62: 7. 线程具有独立运行、状态不可测、执行顺序随机的特点。（）

选项:

答案: 请关注公众号【大象答案】查看答案

问题 63: 8. 线程是系统进行资源分配的最小单位。（）

选项:

答案: 请关注公众号【大象答案】查看答案

问题 64: 9. 线程共享同一进程中的数据。（）

选项:

答案: 请关注公众号【大象答案】查看答案

问题 65: 10. 协程是由操作系统进行调度。（）

选项:

答案: 请关注公众号【大象答案】查看答案

问题 66: 1. np.arange(12).reshape(2,6)的输出结果( )

选项:

• A. [[ 0 1 2 3 4 5]
[ 6 7 8 9 10 11]]

• B. [[ 0 2 4 6 8 10]
[ 1 3 5 7 9 11]]

• C. [[ 1 2 3 4 5 6]
[ 7 8 9 10 11 12]]

• D. [[ 1 3 5 7 9 11]
[ 2 4 6 8 10 12]]

答案: 请关注公众号【大象答案】查看答案

问题 67: 2. 下述哪个代码只能查询数组元素的类型( )

选项:

• A. dtype

• B. type

• C. class

• D. kind

答案: 请关注公众号【大象答案】查看答案

问题 68: 3. ARR=np.array([8,9,2,6]),ARR[-1]=9.9999,请问以下那个选项为数组ARR的输出结果。( )

选项:

• A. [8 9 2 9]

• B. [8 9 2 9.9999]

• C. [8,9,2,9]

• D. [8,9,2,9.9999]

答案: 请关注公众号【大象答案】查看答案

问题 69: 4. 现有ARR数组中的数据类型为整数类型,如果存储一个浮点数类型,系统会自动将其转化为整数类型而不报错。
( )

选项:

答案: 请关注公众号【大象答案】查看答案

问题 70: 5. 列表与数组的首要区别:数组是同类的。( )

选项:

答案: 请关注公众号【大象答案】查看答案

问题 71: 1. 以下哪个函数可以查看DataFrame是否有缺失值( )

选项:

• A. ﬁllna

• B. bﬁll

• C. isnan

• D. Isnull

答案: 请关注公众号【大象答案】查看答案

问题 72: 2. 以下那个选项可以实现DataFrame中2,3两行的选取( )

选项:

• A. df[2:4]

• B. df[2,4]

• C. df[[2:4]]

• D. df[[2,4]]

答案: 请关注公众号【大象答案】查看答案

问题 73: 3. 使用head查看数据,若不设数值,默认多少行( )

选项:

• A. 4

• B. 5

• C. 6

• D. 7

答案: 请关注公众号【大象答案】查看答案

问题 74: 4. 若需要用后一个数据代替NaN,下列哪个函数可以实现( )

选项:

• A. ﬁllna

• B. bﬁll

• C. isnan

• D. Isnull

答案: 请关注公众号【大象答案】查看答案

问题 75: 5. 如何在DataFrame中进行块选取的操作( )

选项:

• A. df.loc[[0:3],[’商品’,’价格’]]

• B. df.loc[[0,3][’商品’,’价格’]]

• C. df.loc [0:3,[’商品’,’价格’]]

• D. df.loc [0:3,’商品’:’价格’]

答案: 请关注公众号【大象答案】查看答案

问题 76: 6. 下列关于pandas的表述有误的是()

选项:

• A. Pandas是Python的一个数据分析包,该工具为解决数据分析任务而创建。

• B. Pandas纳入大量库和标准数据模型,提供高效的操作数据集所需的工具

• C. Pandas提供大量能使我们快速便捷地处理数据的函数和方法

• D. Pandas是字典形式,基于字典创建

答案: 请关注公众号【大象答案】查看答案

问题 77: 7. axis=0代表方向为列( )

选项:

答案: 请关注公众号【大象答案】查看答案

问题 78: 8. pandas提供了一个灵活高效的groupby功能,它使你能以一种自然的方式对数据集进行切片、切块、摘要等操作
( )

选项:

答案: 请关注公众号【大象答案】查看答案

问题 79: 9. drop_duplicates方法用于返回一个移除了重复行的DataFrame( )

选项:

答案: 请关注公众号【大象答案】查看答案

问题 80: 10. 数据中存在NaN时,不可以用其他数值代替缺失值( )

选项:

答案: 请关注公众号【大象答案】查看答案

问题 81: 1. 下列关于requests爬虫说法有误的是( )

选项:

• A. 请求头是将自身伪装成浏览器的关键

• B. 大型网站通常都会根据Referer参数判断请求的来源

• C. 编码问题的存在会使爬虫程序报错

• D. 请求携带的参数封装到一个字典中,当作参数传给post或get

答案: 请关注公众号【大象答案】查看答案

问题 82: 2. 下列选项中，表示连接错误的异常是（）。

选项:

• A. RequestException

• B. ConnectionError

• C. HTTPError

• D. URLEquired

答案: 请关注公众号【大象答案】查看答案

问题 83: 3. 下列选项中，用于以字符串形式获取响应内容的是（）。

选项:

• A. status_code

• B. text

• C. content

• D. encoding

答案: 请关注公众号【大象答案】查看答案

问题 84: 4. 下列哪个选项不可以复制网页节点的路径( )

选项:

• A. copy XPath

• B. copy JS路径

• C. copy selector

• D. copy outerHTML

答案: 请关注公众号【大象答案】查看答案

问题 85: 5. 下列选项中，关于Cookie描述错误的是（）。

选项:

• A. Cookie是一段文本数据，由一个名称和一个值组成

• B. Cookie的生存周期可以由开发人员设置

• C. Cookie数据存储在网站服务器上

• D. Cookie通常是加密的

答案: 请关注公众号【大象答案】查看答案

问题 86: 6. 下列选项中，用于在调用get()函数发送GET请求时设置传递查询字符串的参数是（）。

选项:

• A. data

• B. params

• C. proxies

• D. verify

答案: 请关注公众号【大象答案】查看答案

问题 87: 7. Requests 是用Python语言编写,基于 urllib,采用 Apache2 Licensed 开源协议的 HTTP 库。( )

选项:

答案: 请关注公众号【大象答案】查看答案

问题 88: 8. 当遇到反爬虫时,构建请求头的伪装效果优于构建IP池( )

选项:

答案: 请关注公众号【大象答案】查看答案

问题 89: 9. 通过User-Agent可以识别出是浏览器访问还是代码访问网页( )

选项:

答案: 请关注公众号【大象答案】查看答案

问题 90: 10. Post方法需要权限验证和请求内容,服务器通过权限放行,该方法具有查询和修改数据的权限。( )

选项:

答案: 请关注公众号【大象答案】查看答案

问题 91: 11. 安装好python IDLE之后,则默认已经安装requests模块。( )

选项:

答案: 请关注公众号【大象答案】查看答案

问题 92: 12. requests库爬取页面，返回的数据可以是JSON格式的数据。( )

选项:

答案: 请关注公众号【大象答案】查看答案

问题 93: 13. cookie中保存中我们常见的登录信息,有时候爬取网站需要携带cookie信息访问。( )

选项:

答案: 请关注公众号【大象答案】查看答案

问题 94: 14. GET请求中不能添加URL请求参数。（）

选项:

答案: 请关注公众号【大象答案】查看答案

中国大学MOOC数据采集与网络爬虫考核作业参考原题试题

来源：百年教育职业培训中心 更新时间：2024-12-07 05:37:56

来源：百年教育职业培训中心　更新时间：2024-12-07 05:37:56