爬虫虚拟环境
1,虚拟环境相关命令
创建虚拟环境:mkvirtualenv name 查看虚拟环境:lsvirtualenv 安装模块:pip install packagename==2.0.2 -i https://pypi.tuna.tsinghua.edu.cn/simple/ 卸载模块:pip uninstall name 激活虚拟环境:workon name 退出虚拟环境:deactivate 删除虚拟环境:rmvirtualenv
2,环境的一致性:
保证开发环境与部署环境之间的一致性,两个开发之间的环境一致性 生成requirements.txt文件: pip freeze > requirements.txt 批量安装: pip install -r requirements.txt路径
3,爬虫的概念
爬虫,又称网页蜘蛛或网络机器人
爬虫是模拟人操作客户端(浏览器,APP:(application))向服务器发起网络请求 抓取数据的自动化程序或脚本
模拟: 不让浏览器发现我们是爬虫
客户端: 浏览器和APP,其他是用户与服务器之间进行交互的通道,或者说是桥梁
自动化: 针对大数据量的
4,爬虫分类
1.通用爬虫: 通用爬虫,为搜索引擎提供检索服务。 2.聚焦爬虫: 聚焦爬虫是针对待定领域,抓取特定数据的爬虫程序 # 聚焦爬虫设计思路: 1.确定url,发送请请求 获取向应数据 2.解析数据 3.数据持久化
5,网络模型
# OSI七层模型: 应用层 表示层 会话层 传输层 网络层 数据链路层 物理层 # TCP/IP五层协议: 5.应用层: HTTP/HTTPS协议, ftp协议, SFTP协议, ssh协议 4.传输层: TCP/UDP 3.网络层: IP协议 2.数据链路层: ARP协议 1.物理层: 以太网协议
6,网络协议
http与https区别: 1.http协议需要到ca申请证书,一般免费证书较少,因而需要一定费用 2.http是超文本传输协议,信息是明文传输,https则是具有安全性的ssl加密传输协议 3.http和https使用的是完全不同的连接方式,用的端口不一样,前者是80,后者是443 4.http的连接很简单,是无状态的,https协议是有ssl+http协议构建的可进行加密传输、身份认证的网络 协议,比http协议安全 tcp与udp: Tcp协议,是一种面向连接的,可靠的,基于字节流的传输层通信协议,其具有以下4个特性: ① 有序性: 给数据包编号 ② 正确性: checksum函数,在接收与发送端都会计算验和 ③ 可靠性: 超时重发,并确认的机制 ④ 可控性: 滑动窗口协议与控制算法 Udp协议,是用户数据协议,面向无连接的传输层协议,传输不可靠,其具有以下3个特点: ① 无链接,数据可能丢失或损坏 ② 报文小,传输速度快 ③ 吞吐量大的网络传输,可以在一定程度上承受数据丢失