我是容易 - 博客园

2021年3月2日

在multiprocessing.dummy线程池，基于线程 pool.map（callback，alist）再次处理数据：爬取某音乐网站热歌排行榜里面的歌曲！

摘要：本作品不可用于任何商业途径，仅供学习交流！！！分析：在某音乐网站热歌排行榜里面，随便点击一首歌曲，进入歌曲网页，打开浏览器的开发者工具，刷新网页，播放下歌曲，浏览器的抓包工具network抓包如下图：在某音乐网站热歌排行榜网页里面，打开浏览器的开发者工具，刷新网页，浏览器的抓包工具networ 阅读全文

posted @ 2021-03-02 16:59 我是容易阅读(167) 评论(0) 推荐(0) 编辑

2021年2月28日

selenium 模拟登陆 + requests 抓取登陆后的数据：某小说网站

摘要：对于某些大平台的网站（反爬做的很好的），selenium 模拟登陆 + requests 抓取登陆后的数据是不行的，但是有些网站还是可以使用的：分析：代码部分：这里使用jupyter这个浏览器的可视化编码工具编写代码如图：阅读全文

posted @ 2021-02-28 00:41 我是容易阅读(126) 评论(0) 推荐(0) 编辑

使用 selenium 模拟登陆微信公众号平台并且抓取数据

摘要：第一部分分析：使用selenium获得登陆的cookie，再把cookie传递给requests这种更换请求方式爬取登陆微信公众号平台后的数据，是不行的，所以手动扫码登陆网页的微信公众号平台登陆后，接着使用selenium进行抓取数据等操作（自己分析实践下就知道了）代码部分：这里使用Jupy 阅读全文

posted @ 2021-02-28 00:03 我是容易阅读(1228) 评论(0) 推荐(0) 编辑

2021年2月26日

scrapy框架+scrapy_redis组件的分布式爬虫：爬取某小说网站的所有小说！

摘要：本人上一篇博客写到使用scrapy框架 + redis数据库增量式爬虫：爬取某小说网站里面的所有小说！在查看小说网站的全部小说可以知道，该小说网站起码有100+本小说，每本小说起码有1000+的章节，要是使用单台电脑抓取的话是比较慢的！这里写下在scrapy框架里面：使用scrapy_redi 阅读全文

posted @ 2021-02-26 21:30 我是容易阅读(109) 评论(0) 推荐(0) 编辑

2021年2月25日

scrapy框架 + redis数据库增量式爬虫：爬取某小说网站里面的所有小说！

摘要：第一部分分析：第二部分实现该工程代码：这里使用: scrapy startproject ProName > cd ProName > scrapy genspider spiderName www.xxx.com 创建scrapy工程和爬虫文件. 创建好scrapy工程后，在配置文件set 阅读全文

posted @ 2021-02-25 15:39 我是容易阅读(134) 评论(0) 推荐(0) 编辑

2021年2月24日

scrapy框架+redis增量式爬虫：二进制数据下载>下载某短视频网站里面的短视频的项目工程！

摘要：在我上一个博客里面已经做好一个抓取某短视频网站里面，视频信息数据的工程，点击抓取到的短视频播放地址，是可以直接跳转在浏览器打开播放短视频的：在此工程基础上，再在spiderName 里面请求到短视频的数据并且对其进行持久化储存（对视频播放地址发起请求），就可以实现该博客的标题项目：在管道 pi 阅读全文

posted @ 2021-02-24 16:37 我是容易阅读(110) 评论(0) 推荐(0) 编辑

2021年2月23日

scrapy框架+redis增量式爬虫：抓取某短视频里面发布的视频的观看次数、点赞等信息的项目工程！

摘要：本文仅供学习与交流，切勿用于非法用途！！！第一部分分析：第二部分实现该工程代码：这里使用: scrapy startproject ProName > cd ProName > scrapy ganspider spiderName www.xxx.com 创建scrapy工程和爬虫文件. 阅读全文

posted @ 2021-02-23 15:18 我是容易阅读(173) 评论(0) 推荐(0) 编辑

2021年2月22日

在scrapy框架中使用免费的代理ip，解决ip被封禁的问题！！！

摘要：本文仅供学习与交流，切勿用于非法用途！！！该项目的实现，主要基于视频 https://www.bilibili.com/video/BV1qt411H7ox?t=633 的基础上来实现的（当然也有找其他的视频等资料），这里对阳光问政发起数据请求，让其将本机ip禁掉：这是可以正常打开阳光问政的网页阅读全文

posted @ 2021-02-22 11:30 我是容易阅读(147) 评论(0) 推荐(0) 编辑

2021年2月20日

在scrapy框架中使用selenium爬取强国论坛的新闻标题内容+redis增量式

摘要：本文仅供学习与交流，切勿用于非法用途！！！第一部分（分析）：图1：图2：图3：图4：图5：图6：图7：第二部分（实现代码）：实现爬取强国论坛的新闻标题内容，这里使用: scrapy startproject ProName > cd ProName >scrapy ganspid 阅读全文

posted @ 2021-02-20 16:52 我是容易阅读(204) 评论(0) 推荐(0) 编辑

公告