2020 年 10月 11 日随笔档案 - 曾庆林

2020年10月11日

摘要：一般来讲对我们而言，需要抓取的是某个网站或者某个应用的内容，提取有用的价值，内容一般分为两部分，非结构化的文本，或结构化的文本。关于结构化的数据 JSON、XML、HTML HTML文本（包含JavaScript代码）是最常见的数据格式，理应属于结构化的文本组织，但因为一般我们需要的关键信息并非阅读全文

posted @ 2020-10-11 21:48 曾庆林阅读(143) 评论(0) 推荐(0) 编辑

07-TCP 3次握手，4次挥手过程！都不知道怎么学爬虫

摘要： 1、建立连接协议（三次握手）（1）客户端发送一个带SYN标志的TCP报文到服务器。这是三次握手过程中的报文1。（2）服务器端回应客户端的，这是三次握手中的第2个报文，这个报文同时带ACK标志和SYN标志。因此它表示对刚才客户端SYN报文的回应；同时又标识SYN给客户端，询问客户端是否准备好进行数阅读全文

posted @ 2020-10-11 21:46 曾庆林阅读(176) 评论(0) 推荐(0) 编辑

06-python爬虫库urllib，开始编写python爬虫代码

摘要：终于要开始写爬虫代码了我们首先了解一下 Urllib 库，它是 Python 内置的 HTTP 请求库，也就是说我们不需要额外安装即可使用，它包含四个模块：第一个模块 request，它是最基本的 HTTP 请求模块，我们可以用它来模拟发送一请求，就像在浏览器里输入网址然后敲击回车一样，只需要给阅读全文

posted @ 2020-10-11 10:12 曾庆林阅读(223) 评论(0) 推荐(0) 编辑

05-HTTP协议-万字好文！建议收藏

摘要： HTTP协议介绍设计HTTP(HyperText Transfer Protocol)是为了提供一种发布和接收HTML(HyperText Markup Language)页面的方法。 Http组成由两部分组成：请求与响应客户端请求消息客户端发送一个HTTP请求到服务器的请求消息包括以下格式阅读全文

posted @ 2020-10-11 09:57 曾庆林阅读(231) 评论(0) 推荐(0) 编辑

04-爬虫利器Fiddler

摘要： Fiddler不但能截获各种浏览器发出的HTTP请求, 也可以截获各种智能手机发出的HTTP/HTTPS请求。 Fiddler能捕获IOS设备发出的请求，比如IPhone, IPad, MacBook. 等等苹果的设备。同理，也可以截获Andriod，Windows Phone的等设备发出的HTT 阅读全文

posted @ 2020-10-11 09:49 曾庆林阅读(223) 评论(0) 推荐(0) 编辑

03-python爬虫基本原理

摘要：爬虫是模拟用户在浏览器或者某个应用上的操作，把操作的过程、实现自动化的程序当我们在浏览器中输入一个url后回车，后台会发生什么？比如说你输入http://www.sina.com.cn/ 简单来说这段过程发生了以下四个步骤：查找域名对应的IP地址。向IP对应的服务器发送请求。服务器响应请求阅读全文

posted @ 2020-10-11 09:46 曾庆林阅读(193) 评论(0) 推荐(0) 编辑

02-认识python爬虫

摘要：学习目的了解爬虫，爬虫起源；爬虫是什么专业术语：网络爬虫（又被称为网页蜘蛛，网络机器人）网络爬虫，是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本。爬虫起源（产生背景）随着网络的迅速发展，万维网成为大量信息的载体，如何有效地提取并利用这些信息成为一个巨大的挑战；搜索引擎有Yah 阅读全文

posted @ 2020-10-11 09:43 曾庆林阅读(244) 评论(0) 推荐(0) 编辑

公告