摘要: 一、爬虫基本概念 1.1 什么是互联网? 互联网是由网络设备(网线,路由器,交换机,防火墙等等)和一台台计算机连接而成,像一张网一样。 1.2 互联网建立的目的? ​ 互联网的核心价值在于数据的共享/传递:数据是存放于一台台计算机上的,而将计算机互联到一起的目的就是为了能够方便彼此之间的数据共享/传 阅读全文
posted @ 2020-07-20 20:18 祥SHAO 阅读(978) 评论(0) 推荐(0) 编辑
摘要: http请求报文包含三个部分(请求行 + 请求头 + 请求体) 一、请求行 请求行包含三个内容: method + request-URI + http-version 请求行例如:GET /icwork/? Search = product HTTP/1.1 1.1 请求方法 method 包含有 阅读全文
posted @ 2020-07-20 20:06 祥SHAO 阅读(10834) 评论(1) 推荐(4) 编辑
摘要: http是一个简单的请求-响应协议,它通常运行在TCP之上。它指定了客户端可能发送给服务器什么样的消息以及得到什么样的响应。请求和响应消息的头以ASCII码形式给出;而消息内容则具有一个类似MIME的格式。这个简单模型是早期Web成功的有功之臣,因为它使得开发和部署是那么的直截了当。 类别 内容 类 阅读全文
posted @ 2020-07-20 19:30 祥SHAO 阅读(234) 评论(0) 推荐(0) 编辑
摘要: 一、网络 1.1 通用 urllib -网络库(stdlib)。 requests -网络库。 grab – 网络库(基于pycurl)。 pycurl – 网络库(绑定libcurl)。 urllib3 – Python HTTP库,安全连接池、支持文件post、可用性高。 httplib2 – 阅读全文
posted @ 2020-07-20 17:05 祥SHAO 阅读(164) 评论(0) 推荐(0) 编辑