随笔分类 -  爬虫

摘要:HTTP协议中有很多请求方法,其中最为常见的是GET方法和POST方法。 GET方法 GET是HTTP的默认请求方法。通常用于请求服务器发送某个资源。 没有请求体 数据必须在1K之内 GET请求数据会暴露在浏览器的地址栏中 GET请求常用的操作: 在浏览器的地址栏中直接给出URL,那么就一定是GET 阅读全文
posted @ 2021-07-02 08:47 chuyaoxin 阅读(2164) 评论(0) 推荐(0) 编辑
摘要:HTTPS(Hyper Text Transfer Protocol orer Secure Sokcket Layer,可以理解为HTTP+SSL/TLS)在传输数据之前需要客户端(浏览器)与服务端(网站)之间进行一次握手,在握手过程中将确立双方加密传输数据的密码信息。HTTP与HTTPS的主要区 阅读全文
posted @ 2021-07-02 07:47 chuyaoxin 阅读(95) 评论(0) 推荐(1) 编辑
摘要:概述 HTTP(hypertext transport protocol),即超文本传输协议。这个协议详细规定了浏览器和万维网服务器之间互相通信的规则。 HTTP就是一个通信规则,通信规则规定了客户端发送给服务器的内容格式,也规定了服务器发送给客户端的内容格式。客户端发送给服务器的格式叫“请求协议” 阅读全文
posted @ 2021-07-01 22:07 chuyaoxin 阅读(420) 评论(0) 推荐(0) 编辑
摘要:通用网络爬虫的实现原理及过程如下图所示: 通用网络爬虫的实现原理: (1)获取初始的URL。初始的URL地址可以人为地指定,也可以由用户指定的某个或某几个初始爬取网页决定。 (2)根据初始的URL爬取页面并获得新的URL。获得初始的URL地址之后,先爬取当前URL地址中的网页信息,然后解析网页信息内 阅读全文
posted @ 2021-06-30 21:42 chuyaoxin 阅读(3999) 评论(0) 推荐(0) 编辑
摘要:爬虫可分为通用网络爬虫、聚焦爬虫、增量式网络爬虫和深层网络爬虫。 通用网络爬虫是捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。通用网络爬虫从互联网中搜集网页,采集信息,这些网页信息用于为搜索引擎建立索引。 阅读全文
posted @ 2021-06-30 20:48 chuyaoxin 阅读(983) 评论(0) 推荐(0) 编辑