答案南开大学春《网络爬虫与信息提取》在线作业2.docx
- 文档编号:1131799
- 上传时间:2023-04-30
- 格式:DOCX
- 页数:10
- 大小:17.21KB
答案南开大学春《网络爬虫与信息提取》在线作业2.docx
《答案南开大学春《网络爬虫与信息提取》在线作业2.docx》由会员分享,可在线阅读,更多相关《答案南开大学春《网络爬虫与信息提取》在线作业2.docx(10页珍藏版)》请在冰点文库上搜索。
答案南开大学春《网络爬虫与信息提取》在线作业2
1.通常使用()工具来模拟浏览器进行爬虫请求
A.Selenium
B.Chrome
C.ChromeDriver
D.WebDriver
答案:
A
2.下面代码一共执行循环多少次():
foriinrange(10):
print(i**i)
A.9
B.10
C.11
D.0
答案:
B
3.Redis是()数据库
A.关系数据库
B.键值数据库
C.列存数据库
D.图数据库
答案:
B
4.Python中跳过本次循环应用关键字()
A.break
B.continue
C.exit
D.return
答案:
B
5.打码平台一般通过()识别验证码。
A.人工识别
B.机器学习识别
C.光学字符识别
D.深度学习识别
答案:
A
6.PyMongo中逻辑查询表示等于的符号是()
A.$gt
B.$lt
C.$eq$ne
答案:
C
7.带上通过Chrome浏览器从评论页面复制而来的()再发起请求,可以减少爬虫被网站封锁的概率
A.Cookie
B.Html
C.Headers
D.CSS
答案:
C
8.Python中以下哪个容器里的元素不能重复()
A.列表
B.元组
C.字典
D.集合
答案:
D
9.Redis中往集合中读数据,使用关键字()
A.pop
B.spop
C.lpop
D.range
答案:
B
10.Redis是一个开源的使用()语言编写
A.ANSIC
B.C++
C.JAVA
D.Python
答案:
A
11.可以通过()绕过网站登录。
A.session
B.cookies
C.moonpies
D.localstorage
答案:
B
12.使用了RedisSpider作为爬虫的父类以后,爬虫会直接监控()中的数据,并不读取start_urls中的数据。
A.Redis
B.RedisSpider
C.Spider
D.MongoDB
答案:
A
13.HTTP常用状态码表明服务器上没有请求的资源的是()
A.500
B.503
C.403
D.404
答案:
D
14.Redis中从集合中查看有多少个值,用关键字()
A.scard
B.card
C.count
D.distinct
答案:
A
15.采用以下()技术可以实现异步加载
A.HTML
B.AJAX
C.CSS
D.HTTP
答案:
B
16.当爬虫创建好了之后,可以使用"scrapy()"命令运行爬虫。
A.startup
B.starwar
C.drawl
D.crawl
答案:
D
17.使用UIAutomatorr输入文字的操作是得到相应控件后使用命令()
A.settext
B.set
C.set_text
D.text
答案:
C
18.要使用Python来操作UIAutomator从而控制手机,需要安装一个第三方库()
A.uiautomator
B.automator
C.ui_automator
D.pyautomator
答案:
A
19.使用xpath方法的返回类型是()
A.列表
B.元组
C.字典
D.集合
答案:
A
20.Python中列表可以用()方法在末尾添加元素
A.add
B.append
C.plus
D.+
答案:
B
21.Redis中的值可以支持()
A.列表
B.哈希
C.集合
D.有序集合
答案:
ABCD
22.以下哪些方法属于Python写CSV文件的方法()
A.writeheaders
B.writeheader
C.writerrows
D.writerow
答案:
ACD
23.下列关于mitmproxy的使用说法正确的是()
A.mitmproxy的端口为8080端口
B.设置好代理以后,在手机上打开一个App或者打开一个网页,可以看到mitmproxy上面有数据滚动
C.用鼠标在终端窗口上单击其中的任意一个请求,可以显示这个数据包的详情信息
D.如果要访问HTTPS网站,还需要安装mitmproxy的证书
答案:
ABCD
24.如果爬虫爬取的是商业网站,并且目标网站使用了反爬虫机制,那么强行突破反爬虫机制可能构成()
A.非法侵入计算机系统罪
B.非法获取计算机信息系统数据罪
C.非法获取计算机数据罪
D.非法获取系统罪
答案:
AB
25.Python中一个函数可以有()个return语句
A.0
B.1
C.多个
D.2
答案:
ABCD
26.HTTP常用状态码表明表明服务器本身发生错误的有()
A.403
B.404
C.500
D.503
答案:
CD
27.如果目标网站有反爬虫声明,那么对方在被爬虫爬取以后,可以根据()来起诉使用爬虫的公司
A.服务器日志
B.数据库日志记录
C.程序日志记录
D.服务器监控
答案:
ABCD
28.常用的会话跟踪技术是()
A.session
B.cookies
C.moonpies
D.localstorage
答案:
AB
29.Python中()与元组由类似的数据读取方式
A.字符串
B.列表
C.字典
D.集合
答案:
AB
30.cookies的缺点是()
A.实现自动登录
B.跟踪用户状态
C.http中明文传输
D.增加http请求的流量
答案:
CD
31.Python中列表生成以后还可以往里面继续添加数据,也可以从里面删除数据。
()
T.对
F.错
答案:
T
32.Redis的列表是一个单向队列。
()
T.对
F.错
答案:
F
33.requests中get请求方法的使用为requests.get('网址',data=data)。
()
T.对
F.错
答案:
F
34.scrapy与selenium结合可以实现直接处理需要异步加载的页面。
()
T.对
F.错
答案:
T
35.为了在安卓手机上安装证书,需要先发送证书到手机里面。
在Charles中选择“Help”-“SSLProxying”-“SaveCharlesRootCertificate”命令,可以将Charles的证书保存到计算机桌面。
()
T.对
F.错
答案:
T
36.XPath提取出来的内容是一个SelectorList对象,它的第0个元素就是网页的源代码。
()
T.对
F.错
答案:
F
37.当Charles抓包以后,在MacOS系统下可以按Command+F组合键,在Windows系统下按Ctrl+F组合键打开Charles进行搜索。
()
T.对
F.错
答案:
T
38.Python中直接对浮点数进行计算有print(0.1+0.2),则结果为0.3。
()
T.对
F.错
答案:
F
39.在对XPath返回的对象再次执行XPath的时候,子XPath开头需要添加斜线。
()
T.对
F.错
答案:
F
40.Python中写CSV文件的writerows方法参数为字典类型。
()
T.对
F.错
答案:
F
41.网站返回的Headers中经常有Cookies,可以用mitmdump脚本使用print函数把Cookies打印出来。
()
T.对
F.错
答案:
F
42.在安装Scarpy的依赖库时,由于VisualC++BuildTools的安装速度很慢,为了节省时间,可以和安装Twisted同时进行。
()
T.对
F.错
答案:
F
43.Charles和Chrome开发者工具相比,只是多了一个搜索功能。
()
T.对
F.错
答案:
F
44.Scrapy的工程名字不能使用scrapy,否则爬虫会无法运行。
除此以外工程名不受限制。
()
T.对
F.错
答案:
F
45.在发送请求时需要注意requests提交的请求头不能与浏览器的请求头一致,因为这样才能隐藏好自己达到获取数据的目的。
()
T.对
F.错
答案:
F
46.Cookies一般包含在请求头Headers中。
()
T.对
F.错
答案:
T
47.Python中相比于findall方法,search方法对于从超级大的文本里面只找第1个数据特别有用,可以大大提高程序的运行效率。
()
T.对
F.错
答案:
T
48.当使用Scarpy创建爬虫时,当爬取网易云音乐首页信息时,scrapygenspider的第二个参数直接输入就可以了。
()
T.对
F.错
答案:
F
49.chrome开发者工具没法对数据进行搜索。
如果想知道一个特定的异步加载内容来自哪个请求,必须在“Network”选项卡里面一个请求一个请求地进行查看。
()
T.对
F.错
答案:
T
50.插入数据时,MongoDB会自动添加一列“_id”,也就是自增ID,每次自动加1。
()
T.对
F.错
答案:
F
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 网络爬虫与信息提取 答案 南开大学 网络 爬虫 信息 提取 在线 作业