爬虫 - 随笔分类 - sinatJ

selenium 无法定位元素的一种情形 - iframe

摘要：今天在爬取一个反爬措施较严格的网站时，使用 selenium 做自动化登录时，无法定位输入框的问题。查看网页源代码确实没有登录相关元素的标签，可以判定是采用的动态加载，但是即使使用的动态加载，等待页面渲染完毕之后应该还是能定位的。看了下渲染完毕之后的网页源码，发现了在当前 html 页面中，又嵌阅读全文

posted @ 2023-08-05 18:37 sinatJ 阅读(90) 评论(0) 推荐(0) 编辑

Python 自建 IP 代理池 - Scrapy 重构

摘要：### 1 重构说明这是项目 [Python 自建 IP 代理池](https://www.cnblogs.com/zishu/p/17316593.html) 的重构版本，学习了 scrapy 框架的使用，并用该框架对之前项目进行了重构，得益于 scrapy 框架本身的优秀设计，之前手撸的小框架阅读全文

posted @ 2023-06-30 16:17 sinatJ 阅读(172) 评论(0) 推荐(0) 编辑

Python 自建 IP 代理池

摘要：> 文章有点儿长，谨慎食用~ python 爬虫在爬取网页内容时，遭遇的最常见的反爬措施就是 ip 限制/封禁，对此最常见的解决方式就是设置 IP 代理池，每次请求时随机使用一个代理 IP 去访问资源。网上有成熟的代理服务，但是小伙汁的爬虫需求多是非定期的自定义项目，使用付费代理并不划算，遂有了爬阅读全文

posted @ 2023-04-13 21:56 sinatJ 阅读(1090) 评论(0) 推荐(0) 编辑

python 多进程

摘要：背景：串行执行慢，考虑使用多进程来加速。 1 多进程这块可以参考：https://blog.csdn.net/Hao_ge_666/article/details/120571731 2 多线程这块可以参考：https://blog.csdn.net/Hao_ge_666/article/det 阅读全文

posted @ 2023-04-09 19:25 sinatJ 阅读(39) 评论(0) 推荐(0) 编辑

（二）scrapy 中如何自定义 pipeline 下载图片

摘要：这里以一个很简单的小爬虫为例，爬取壹心理网站的阅读页面第一页的所有文章及其对应的图片，文章页面如下: 创建项目首先新建一个 scrapy 项目，安装好相关依赖（步骤可参考：scrapy 安装及新建爬虫项目并运行）。新建一个爬虫：此时项目工程目录与新建的爬虫如下：爬取信息并编写图片自动下载阅读全文

posted @ 2019-09-21 14:12 sinatJ 阅读(734) 评论(0) 推荐(0) 编辑

（一）scrapy 安装及新建爬虫项目并运行

摘要：> 参考：https://www.cnblogs.com/hy123456/p/9847570.html 在 pycharm 中并没有创建 scrapy 工程的选项，需要手动创建。这里就有两种创建 scrapy 项目的方式，第一种是先手工创建 scrapy 项目，然后导入到 pycharm 中；第阅读全文

posted @ 2019-09-18 16:51 sinatJ 阅读(3049) 评论(0) 推荐(0) 编辑

Loading

SinatJ

随笔分类 - 爬虫

公告

搜索

常用链接

随笔分类

阅读排行榜

评论排行榜

推荐排行榜