Fork me on GitHub

随笔分类 -  爬虫

摘要:由于标题中的错误引发: Message: Tried to run command without establishing a connection 解释: 先说一下我的爬虫架构,用的是firefox+selenium,上面的那个错误是因为浏览器退出之后,爬虫还要浏览器去执行一些命令,所以才报上面 阅读全文
posted @ 2019-03-26 14:57 猿起缘灭 阅读(5914) 评论(4) 推荐(0) 编辑
摘要:背景:在使用selenium时,在本地使用windows,都会有一个图形界面,但是到了生产环境linux上没有了图形界面怎么部署呢? 解决方案: 1.安装图形化界面,不推荐,因为安装图形化界面会占用很多内存,而且在linux上搞个图形界面,很不爽 2.使用虚拟化图形界面,就跟你的虚拟机一样,也是一套 阅读全文
posted @ 2019-03-07 19:33 猿起缘灭 阅读(1081) 评论(0) 推荐(0) 编辑
摘要:问题描述:在爬取一些反爬机制做的比较好的网站时,经常会遇见一个问题就网站代码是通过js写的,这种就无法直接使用一般的爬虫工具爬取,这种情况一般有两种解决方案 第一种:把js代码转为html代码,然后再使用html代码解析工具爬取,目前常用的工具是selenium和scrapy-splash,我使用的 阅读全文
posted @ 2019-03-02 17:32 猿起缘灭 阅读(4932) 评论(0) 推荐(0) 编辑
摘要:背景:动态页面是页面是通过js代码渲染出来的,无法直接使用scrapy爬虫,这是就需要先把js代码转为静态的html,再用scrapy爬虫就可以解决 解决办法:增加SeleniumMiddlewares中间件 代码: 阅读全文
posted @ 2019-03-01 14:46 猿起缘灭 阅读(3019) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示