Python爬虫学习——1.爬虫入门

HTTP和HTTPS

HTTP协议（HyperText Transfer Protocol，超文本传输协议）：是一种发布和接收 HTML页面的方法。

HTTPS（Hypertext Transfer Protocol over Secure Socket Layer）简单讲是HTTP的安全版，在HTTP下加入SSL层。

SSL（Secure Sockets Layer 安全套接层）主要用于Web的安全传输协议，在传输层对网络连接进行加密，保障在Internet上数据传输的安全。

　　　　特点：比较便捷

　　　　缺点：不安全，参数的长度有限制

　　　　特点：比较安全，数据整体没有限制，通常用来向HTTP服务器提交量比较大的数据（比如请求中包含许多参数或者文件上传操作等）

当发送网络请求时（需要带一定的数据给服务器，不带数据也可以），会看到请求头：request header和客户端返回数据的相应：response

　　使用代码模拟用户，批量的发送网络请求，批量的获取数据。

　　买卖数据（高端的领域价格昂贵！！）；数据分析；流量；......

　　灰色产业（没有法律明确规定是否违法）。

　　不可以。爬虫只能怕去到用户所能访问到的信息。如腾讯视频vip用户可以爬取vip视频，普通用户只可爬取非vip的视频。

　　（1）确认你抓取目标的url是哪一个

　　（2）使用Python代码发送网络请求来获取数据

　　（3）解析获取到的数据（精确数据）

　　（4）数据持久化（将数据存储在本地）

学习课程：B站《廖雪峰爬虫》

posted @ 2020-11-16 16:32 张涨涨阅读(59) 评论(0) 编辑收藏举报

刷新页面返回顶部