【大数据课堂0005】【爬虫】爬虫总结--面试利器
一些经典的Python爬虫和网络编程面试题,非常实用的,给大家介绍一下!
1、动态加载又对及时性要求很高怎么处理?
- Selenium+Phantomjs
- 尽量不使用 sleep 而使用 WebDriverWait
2、分布式爬虫主要解决什么问题?
(1)ip
(2)带宽
(3)cpu
(4)io
3、什么是 URL?
URL,即统一资源定位符,也就是我们说的网址,统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的 URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。
4、python 爬虫有哪些常用技术?
Scrapy,Beautiful Soup, urllib,urllib2,requests
5、简单说一下你对 scrapy 的了解?
scrapy 是一个快速(fast)、高层次(high-level)的基于 python 的 web 爬虫构架。
用来下载、并解析 web 页面, 其 parse->yield item->pipeline 流程是所有爬虫的固有模式。
构造形式主要分spider.pypipeline.py item.py decorator.py middlewares.py setting.py。
6、Scrapy 的优缺点?
(1)优点:scrapy 是异步的
采取可读性更强的 xpath 代替正则强大的统计和 log 系统,同时在不同的 url 上爬行支持 shell 方式,方便独立调试写 middleware,方便写一些统一的过滤器,通过管道的方式存入数据库
(2)缺点:基于 python 的爬虫框架,扩展性比较差
基于 twisted 框架,运行中的 exception 是不会干掉 reactor,并且异步框架出错后是不会停掉其他任务的,数据出错后难以察觉。
7、scrapy 和 request?
(1)scrapy 是封装起来的框架,他包含了下载器,解析器,日志及异常处理,基于多线程, twisted 的方式处理,对于固定单个网站的爬取开发,有优势,但是对于多网站爬取 100 个网站,并发及分布式处理方面,不够灵活,不便调整与括展。
(2)request 是一个 HTTP 库, 它只是用来,进行请求,对于 HTTP 请求,他是一个强大的库,下载,解析全部自己处理,灵活性更高,高并发与分布式部署也非常灵活,对于功能可以更好实现.
8、五层网络模型?
应用层—http ftp dns nfs
传输层—tcp --udp
网络层—ip icmp igmp
链路层—data link
物理层—media
设置 ip 和掩码
Ifconfig eth0 192.168.13.225 netmask 255.255.255.0
设置网关
route add default gw 192.168.5.1
9、什么是 2MSL?
2MSL 即两倍的 MSL,TCP 的 TIME_WAIT 状态也称为 2MSL 等待状态,当 TCP 的一端发起主动关闭,在发出最后一个 ACK 包后,即第 3 次握手完成后发送了第四次握手的 ACK包后就进入了 TIME_WAIT 状态,必须在此状态上停留两倍的 MSL 时间,等待 2MSL 时间主要目的是怕最后一个 ACK 包对方没收到,那么对方在超时后将重发第三次握手的 FIN包,主动关闭端接到重发的 FIN 包后可以再发一个 ACK 应答包。在 TIME_WAIT 状态时两端的端口不能使用,要等到 2MSL 时间结束才可继续使用。当连接处于 2MSL 等待阶段时任何迟到的报文段都将被丢弃。不过在实际应用中可以通过设置 SO_REUSEADDR 选项达到不必等待 2MSL 时间结束再使用此端口。
10、创建一个简单 tcp 服务器需要的流程?
1.socket 创建一个套接字
2.bind 绑定 ip 和 port
3.listen 使套接字变为可以被动链接
4.accept 等待客户端的链接
5.recv/send 接收发送数据
11、TTL,MSL,RTT?
(1)MSL:报文最大生存时间”,他是任何报文在网络上存在的最长时间,超过这个时间报文将被丢弃。
(2)TTL:TTL 是 time to live 的缩写,中文可以译为“生存时间”,这个生存时间是由源主机设置初始值但不是存的具体时间,而是存储了一个 ip 数据报可以经过的最大路由数,每经过一个处理他的路由器此值就减 1,当此值为 0 则数据报将被丢弃,同时发送 ICMP 报文通知源主机。RFC 793 中规定 MSL 为 2 分钟,实际应用中常用的是 30 秒,1 分钟和 2 分钟等。TTL 与 MSL 是有关系的但不是简单的相等的关系,MSL要大于等于 TTL。
(3)RTT: RTT 是客户到服务器往返所花时间(round-trip time,简称 RTT),TCP 含有动态估算 RTT 的算法。TCP 还持续估算一个给定连接的 RTT,这是因为 RTT受网络传输拥塞程序的变化而变化。
12、常用的反爬虫措施?
1.添加代理
2.降低访问频率
User-Agent动态 HTML 数据加载验证码处理Cookie
13、关于 HTTP/HTTPS 的区别
HTTPS 和 HTTP 的区别:
(1)https 协议需要到 ca 申请证书,一般免费证书很少,需要交费。
(2)http 是超文本传输协议,信息是明文传输,https 则是具有安全性的 ssl 加密传输协议
(3)http 和 https 使用的是完全不同的连接方式用的端口也不一样,前者是 80,后者是 443。
(4)http 的连接很简单,是无状态的
(5)HTTPS 协议是由 SSL+HTTP 协议构建的可进行加密传输、身份认证的网络协议 要比http 协议安全
应用场合:
(1)http:适合于对传输速度,安全性要求不是很高,且需要快速开发的应用。如 web 应用,小的手机游戏等等.
(2)https:https 应该用于任何场景!
14、HTTPS 有什么优点和缺点
优点:
1、使用 HTTPS 协议可认证用户和服务器,确保数据发送到正确的客户机和服务器;
2、HTTPS 协议是由 SSL+HTTP 协议构建的可进行加密传输、身份认证的网络协议,要比 http 协议安全,可防止数据在传输过程中不被窃取、改变,确保数据的完整性。
3、HTTPS 是现行架构下最安全的解决方案,虽然不是绝对安全,但它大幅增加了中间人攻击的成本
缺点:
1.HTTPS 协议的加密范围也比较有限,在黑客攻击、拒绝服务攻击、服务器劫持等方面几乎起不到什么作用
2.HTTPS 协议还会影响缓存,增加数据开销和功耗,甚至已有安全措施也会受到影响也会因此而受到影响。
3.SSL 证书需要钱。功能越强大的证书费用越高。个人网站、小网站没有必要一般不会用。
4.HTTPS 连接服务器端资源占用高很多,握手阶段比较费时对网站的相应速度有负面影响。
5.HTTPS 连接缓存不如 HTTP 高效。
15、HTTPS 是如何实现安全传输数据的
HTTPS 其实就是在 HTTP 跟 TCP 中间加多了一层加密层 TLS/SSL。SSL 是个加密套件,负责对 HTTP 的数据进行加密。TLS 是 SSL 的升级版。现在提到 HTTPS,加密套件基本指的是 TLS。原先是应用层将数据直接给到 TCP 进行传输,现在改成应用层将数据给到TLS/SSL,将数据加密后,再给到 TCP 进行传输。
16、HTTPS 安全证书是怎么来的
如何申请,国内和国外有哪些第三方机构提供安全证书认证。
国内:
- 沃通(WoSign)
- 中国人民银行联合 12 家银行建立的金融 CFCA
- 中国电信认证中心(CTCA)
- 海关认证中心(SCCA)
- 国家外贸部 EDI 中心建立的国富安 CA 安全认证中心
- SHECA(上海 CA)为首的 UCA 协卡认证体系
国外:
- StartSSL
- GlobalSign
- GoDaddy
- Symantec
16、get 和 post 请求有什么区别
- 区别: 1.1.get:
- 从指定的服务器中获取数据。
- GET 请求能够被缓存
- GET 请求会保存在浏览器的浏览记录中
- 以 GET 请求的 URL 能够保存为浏览器书签
- GET 请求有长度限制
- GET 请求主要用以获取数据
- 1.2.post
- POST 请求不能被缓存下来
- POST 请求不会保存在浏览器浏览记录中
- 以 POST 请求的 URL 无法保存为浏览器书签
- POST 请求没有长度限制
- POST 请求会把请求的数据放置在 HTTP 请求包的包体中,POST 的安全性比 GET的高.可能修改变服务器上的资源的请求.
- 应用场合:
- post:
- 请求的结果有持续性的副作用(数据库内添加新的数据行)
- 若使用 GET 方法,则表单上收集的数据可能让 URL 过长。
- 要传送的数据不是采用 7 位的 ASCII 编码。
- get:
- 请求是为了查找资源,HTML 表单数据仅用来帮助搜索。
- 请求结果无持续性的副作用。
- 收集的数据及 HTML 表单内的输入字段名称的总长不超过 1024 个字符
- HTTP 请求会有哪些信息发送到后台服务器。
- 请求行 (请求方式、资源路径和 HTTP 协议版本)POST /demo/login HTTP/1.1
- 请求消息头
- 消息正文(也叫实体内容) username=xxxx&password=1234
17、描述下 scrapy 框架运行的机制?
(1)从 start_urls 里获取第一批 url 并发送请求,请求由引擎交给调度器入请求队列,获取完毕后,调度器将请求队列里的请求交给下载器去获取请求对应的响应资源,并将响应交给自己编写的解析方法做提取处理:1. 如果提取出需要的数据,则交给管道文件处理;
(2)如果提取出 url,则继续执行之前的步骤(发送 url 请求,并由引擎将请求交给调度器入队列…),直到请求队列里没有请求,程序结束。
18、为什么选择redis 数据库?
1) scrapy 是一个 Python 爬虫框架,爬取效率极高,具有高度定制性,但是不支持分布式。而 scrapy-redis 一套基于 redis 数据库、运行在 scrapy 框架之上的组件,可以让scrapy 支持分布式策略,Slaver 端共享 Master 端 redis 数据库里的 item 队列、请求队列和请求指纹集合。
2) 为什么选择 redis 数据库,因为 redis 支持主从同步,而且数据都是缓存在内存中的,所以基于 redis 的分布式爬虫,对请求和数据的高频读取效率非常高
19、实现模拟登录的方式有哪些?
1) 使用一个具有登录状态的 cookie,结合请求报头一起发送,可以直接发送 get 请求,访问登录后才能访问的页面。
2) 先发送登录界面的 get 请求,在登录页面 HTML 里获取登录需要的数据(如果需要的话),然后结合账户密码,再发送 post 请求,即可登录成功。然后根据获取的 cookie信息,继续访问之后的页面。
20、简单介绍下 scrapy 的异步处理
scrapy 框架的异步机制是基于 twisted 异步网络框架处理的,在 settings.py 文件里可以设置具体的并发量数值(默认是并发量 16)。