随笔分类 -  爬虫

摘要:今天在爬取一个反爬措施较严格的网站时,使用 selenium 做自动化登录时,无法定位输入框的问题。 查看网页源代码确实没有登录相关元素的标签,可以判定是采用的动态加载,但是即使使用的动态加载,等待页面渲染完毕之后应该还是能定位的。 看了下渲染完毕之后的网页源码,发现了在当前 html 页面中,又嵌 阅读全文
posted @ 2023-08-05 18:37 sinatJ 阅读(90) 评论(0) 推荐(0) 编辑
摘要:### 1 重构说明 这是项目 [Python 自建 IP 代理池](https://www.cnblogs.com/zishu/p/17316593.html) 的重构版本,学习了 scrapy 框架的使用,并用该框架对之前项目进行了重构,得益于 scrapy 框架本身的优秀设计,之前手撸的小框架 阅读全文
posted @ 2023-06-30 16:17 sinatJ 阅读(172) 评论(0) 推荐(0) 编辑
摘要:> 文章有点儿长,谨慎食用~ python 爬虫在爬取网页内容时,遭遇的最常见的反爬措施就是 ip 限制/封禁,对此最常见的解决方式就是设置 IP 代理池,每次请求时随机使用一个代理 IP 去访问资源。 网上有成熟的代理服务,但是小伙汁的爬虫需求多是非定期的自定义项目,使用付费代理并不划算,遂有了爬 阅读全文
posted @ 2023-04-13 21:56 sinatJ 阅读(1090) 评论(0) 推荐(0) 编辑
摘要:背景:串行执行慢,考虑使用多进程来加速。 1 多进程 这块可以参考:https://blog.csdn.net/Hao_ge_666/article/details/120571731 2 多线程 这块可以参考:https://blog.csdn.net/Hao_ge_666/article/det 阅读全文
posted @ 2023-04-09 19:25 sinatJ 阅读(39) 评论(0) 推荐(0) 编辑
摘要:这里以一个很简单的小爬虫为例,爬取 壹心理 网站的阅读页面第一页的所有文章及其对应的图片,文章页面如下: 创建项目 首先新建一个 scrapy 项目,安装好相关依赖(步骤可参考:scrapy 安装及新建爬虫项目并运行)。 新建一个爬虫: 此时项目工程目录与新建的爬虫如下: 爬取信息并编写图片自动下载 阅读全文
posted @ 2019-09-21 14:12 sinatJ 阅读(734) 评论(0) 推荐(0) 编辑
摘要:> 参考:https://www.cnblogs.com/hy123456/p/9847570.html 在 pycharm 中并没有创建 scrapy 工程的选项,需要手动创建。 这里就有两种创建 scrapy 项目的方式,第一种是先手工创建 scrapy 项目,然后导入到 pycharm 中;第 阅读全文
posted @ 2019-09-18 16:51 sinatJ 阅读(3049) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示
主题色彩