2019 年 8月 1 日随笔档案 - 麦小秋

2019年8月1日

摘要： 1.BeautifulSoup介绍 Beautiful Soup就是Python的一个HTML或XML的解析库，可以用它来方便地从网页中提取数据。Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为UTF-8编码。使用流程： - 导包：from bs4 import 阅读全文

posted @ 2019-08-01 23:58 麦小秋阅读(269) 评论(0) 推荐(0) 编辑

网络爬虫（6）-Requests库

摘要： 1.Requests库基本使用 import requests response = requests.get("https://www.baidu.com") print(response.status_code) print(response.text) print(response.cooki 阅读全文

posted @ 2019-08-01 23:42 麦小秋阅读(306) 评论(0) 推荐(0) 编辑

网络爬虫（5）-Scrapy中间件

摘要： 1.下载中间件 Downloader Middlewares，位于scrapy引擎和下载器之间的一层组件。 - 作用：引擎将请求传递给下载器过程中，下载中间件可以对请求进行一系列处理。比如设置请求的 User-Agent，设置代理等在下载器完成将Response传递给引擎中，下载中间件可以对响阅读全文

posted @ 2019-08-01 23:23 麦小秋阅读(195) 评论(0) 推荐(0) 编辑

网络爬虫（4）-Scrapy增量爬虫

摘要： 1.增量爬虫概念通过爬虫程序监测某网站数据更新的情况，以便可以爬取到该网站更新出的新数据。 2.增量爬虫方法在发送请求之前判断这个URL是不是之前爬取过在解析内容后判断这部分内容是不是之前爬取过写入存储介质时判断内容是不是已经在介质中存在分析：不难发现，其实增量爬取的核心是去重，至于去重阅读全文

posted @ 2019-08-01 21:44 麦小秋阅读(298) 评论(0) 推荐(0) 编辑

麦小秋

记录学习历程！个人Q群：870467632（Python学习交流群）欢迎Python爱好者加入，一起学习，共同进步！

公告