sammyzhang

scrapy遇到Couldn't bind: 24: Too many open files.错误的解决

摘要：现象为爬虫日志报出Couldn't bind: 24: Too many open files.错误，netstat -natep | grep 代理端口或爬虫进程ID，有大量ESTABLISHED的连接。 Socket error 10024，具体错误信息就是Too many open file 阅读全文

posted @ 2019-01-17 15:31 sammyzhang 阅读(626) 评论(0) 推荐(0)

scrapyd找不到spider的问题

摘要：现象为用scrapy crawler跑没有问题，但将爬虫提交给scrapyd运行，找不到项目中的spider。经过反复调试后发现，是settings中将LOG_STDOUT置为True导致，将LOG_STDOUT设为False问题决绝。阅读全文

posted @ 2018-12-27 10:26 sammyzhang 阅读(434) 评论(0) 推荐(0)

scrapy request 请求本地文件

摘要： scrapy的Request可以不借助本地web服务，直接对本地文件发起请求并获取文件内容。关键在于请求文件的路径格式，以windows环境为例：绝对路径：url = 'file:///c:/Projects/Article/spiders/start.html'绝对路径：url = 'file 阅读全文

posted @ 2018-12-19 09:55 sammyzhang 阅读(604) 评论(0) 推荐(0)

禁止chrome浏览器自动升级的方法

摘要：最近用selenium+chrome做测试或爬虫的时，发现chrome被强制升级了，如果在项目中需要使用指定版本，由于升级后的chrome与驱动版本不符，会导致各种异常。我在之前的一个项目中使用的是53版本的chrome（需要自动播放flash，新版chrome默认不会自动播放flash，需要添加阅读全文

posted @ 2018-12-06 10:31 sammyzhang 阅读(1037) 评论(0) 推荐(0)

Selenium WebDriver的使用（三）

摘要： Selenium WebDriver支持驱动众多的浏览器，包括PhantomJS、HtmlUnitDriver等无界面浏览器，他们速度快，但在兼容性上还是有点问题，有时会遇到页面JS执行错误，在一些应用场合，页面内容提取也不够简洁方便。对于常用的桌面浏览器，兼容性很好，但在执行性能上较无界面浏览器阅读全文

posted @ 2016-03-16 16:17 sammyzhang 阅读(6518) 评论(0) 推荐(0)

Selenium WebDriver的使用（二）

摘要： WebDriver的get()方法只会在当前窗口（ current browser window）加载页面，并且会阻塞程序的运行，直至页面加载完毕（onload）或者超时，超时可以通过在初始化实例时进行设置：如果需要用一个WebDriver实例同时操作多个浏览器窗口，需要留意该特性造成的影响。默认阅读全文

posted @ 2016-03-16 13:07 sammyzhang 阅读(1345) 评论(0) 推荐(0)

Selenium WebDriver的使用（一）

摘要： Selenium WebDriver的相关介绍及资源下载：http://docs.seleniumhq.org/ 在2016年2月份Selenium WebDriver更新到了2.52.0版本，建议在使用旧版本的更新至该版本，在稳定性和性能上提高不少。 Selenium支持驱动众多的浏览器，包括PC 阅读全文

posted @ 2016-03-15 17:37 sammyzhang 阅读(3327) 评论(0) 推荐(0)

导航

公告