随笔分类 - 网络爬虫
主要使用python实现一些爬虫功能,有网络请求,数据提取,数据存储,爬虫进阶,Scrapy框架等介绍。
摘要:1)什么是链接? 链接是指两个设备之间的连接。它包括用于一个设备能够与另一个设备通信的电缆类型和协议。 2)OSI 参考模型的层次是什么? 有 7 个 OSI 层:物理层,数据链路层,网络层,传输层,会话层,表示层和应用层。 3)什么是骨干网? 骨干网络是集中的基础设施,旨在将不同的路由和数据分发到
阅读全文
摘要:requests库 虽然Python的标准库中 urllib模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests宣传是 “HTTP for Humans”,说明使用更简洁方便。 安装和文档地址: 利用pip可以非常方便的安装: 中文文档:http:/
阅读全文
摘要:urllib库 urllib库是Python中一个最基本的网络请求库。可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据。 urlopen函数: 在Python3的urllib库中,所有和网络请求相关的方法,都被集到urllib.request模块下面了,以先来看下urlo
阅读全文
摘要:http协议和Chrome抓包工具 什么是http和https协议: HTTP协议:全称是HyperText Transfer Protocol,中文意思是超文本传输协议,是一种发布和接收HTML页面的方法。服务器端口号是80端口。 HTTPS协议:是HTTP协议的加密版本,在HTTP下加入了SSL
阅读全文
摘要:爬虫的实际例子: 什么是网络爬虫: 通用爬虫和聚焦爬虫: 为什么用Python写爬虫程序: 准备工具:
阅读全文