1 2 3 4

爬虫虚拟环境

1,虚拟环境相关命令

  

创建虚拟环境:mkvirtualenv name
查看虚拟环境:lsvirtualenv
安装模块:pip install packagename==2.0.2 -i https://pypi.tuna.tsinghua.edu.cn/simple/
卸载模块:pip uninstall name
激活虚拟环境:workon name
退出虚拟环境:deactivate
删除虚拟环境:rmvirtualenv

2,环境的一致性:

  

保证开发环境与部署环境之间的一致性,两个开发之间的环境一致性
    生成requirements.txt文件:
        pip freeze > requirements.txt
    批量安装:
        pip install -r requirements.txt路径

3,爬虫的概念

  

爬虫,又称网页蜘蛛或网络机器人
    爬虫是模拟人操作客户端(浏览器,APP:(application))向服务器发起网络请求 抓取数据的自动化程序或脚本
    模拟: 不让浏览器发现我们是爬虫
    客户端: 浏览器和APP,其他是用户与服务器之间进行交互的通道,或者说是桥梁
    自动化: 针对大数据量的

4,爬虫分类

  

1.通用爬虫: 通用爬虫,为搜索引擎提供检索服务。
    2.聚焦爬虫: 聚焦爬虫是针对待定领域,抓取特定数据的爬虫程序
    # 聚焦爬虫设计思路:
        1.确定url,发送请请求 获取向应数据
        2.解析数据
        3.数据持久化

5,网络模型

  

# OSI七层模型:
        应用层 
        表示层
        会话层
        传输层
        网络层
        数据链路层
        物理层
    
    # TCP/IP五层协议:
        5.应用层: HTTP/HTTPS协议, ftp协议, SFTP协议, ssh协议
        4.传输层: TCP/UDP 
        3.网络层: IP协议
        2.数据链路层: ARP协议
        1.物理层: 以太网协议

6,网络协议

  

http与https区别:
        1.http协议需要到ca申请证书,一般免费证书较少,因而需要一定费用
        2.http是超文本传输协议,信息是明文传输,https则是具有安全性的ssl加密传输协议
        3.http和https使用的是完全不同的连接方式,用的端口不一样,前者是80,后者是443
        4.http的连接很简单,是无状态的,https协议是有ssl+http协议构建的可进行加密传输、身份认证的网络            协议,比http协议安全
     tcp与udp:   
    Tcp协议,是一种面向连接的,可靠的,基于字节流的传输层通信协议,其具有以下4个特性:
        ① 有序性: 给数据包编号
        ② 正确性: checksum函数,在接收与发送端都会计算验和
        ③ 可靠性: 超时重发,并确认的机制
        ④ 可控性: 滑动窗口协议与控制算法
    Udp协议,是用户数据协议,面向无连接的传输层协议,传输不可靠,其具有以下3个特点:
        ① 无链接,数据可能丢失或损坏
        ② 报文小,传输速度快
        ③ 吞吐量大的网络传输,可以在一定程度上承受数据丢失

 

posted @ 2020-09-02 20:20  发哥奇妙IT之旅  阅读(177)  评论(0编辑  收藏  举报