爬虫 - 随笔分类 - chuyaoxin

GET方法和POST方法

摘要：HTTP协议中有很多请求方法，其中最为常见的是GET方法和POST方法。 GET方法 GET是HTTP的默认请求方法。通常用于请求服务器发送某个资源。没有请求体数据必须在1K之内 GET请求数据会暴露在浏览器的地址栏中 GET请求常用的操作：在浏览器的地址栏中直接给出URL，那么就一定是GET 阅读全文

posted @ 2021-07-02 08:47 chuyaoxin 阅读(2232) 评论(0) 推荐(0)

HTTPS协议

摘要：HTTPS（Hyper Text Transfer Protocol orer Secure Sokcket Layer，可以理解为HTTP+SSL/TLS）在传输数据之前需要客户端（浏览器）与服务端（网站）之间进行一次握手，在握手过程中将确立双方加密传输数据的密码信息。HTTP与HTTPS的主要区阅读全文

posted @ 2021-07-02 07:47 chuyaoxin 阅读(122) 评论(0) 推荐(1)

HTTP协议

摘要：概述 HTTP（hypertext transport protocol），即超文本传输协议。这个协议详细规定了浏览器和万维网服务器之间互相通信的规则。 HTTP就是一个通信规则，通信规则规定了客户端发送给服务器的内容格式，也规定了服务器发送给客户端的内容格式。客户端发送给服务器的格式叫“请求协议” 阅读全文

posted @ 2021-07-01 22:07 chuyaoxin 阅读(453) 评论(0) 推荐(0)

爬虫的基本原理

摘要：通用网络爬虫的实现原理及过程如下图所示：通用网络爬虫的实现原理：（1）获取初始的URL。初始的URL地址可以人为地指定，也可以由用户指定的某个或某几个初始爬取网页决定。（2）根据初始的URL爬取页面并获得新的URL。获得初始的URL地址之后，先爬取当前URL地址中的网页信息，然后解析网页信息内阅读全文

posted @ 2021-06-30 21:42 chuyaoxin 阅读(4372) 评论(0) 推荐(0)

爬虫的分类

摘要：爬虫可分为通用网络爬虫、聚焦爬虫、增量式网络爬虫和深层网络爬虫。通用网络爬虫是捜索引擎抓取系统（Baidu、Google、Yahoo等）的重要组成部分。主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。通用网络爬虫从互联网中搜集网页，采集信息，这些网页信息用于为搜索引擎建立索引。阅读全文

posted @ 2021-06-30 20:48 chuyaoxin 阅读(1100) 评论(0) 推荐(0)

笛在月明楼

路虽远，行则将至。

随笔分类 - 爬虫

公告