2019年1月17日

摘要: 现象为爬虫日志报出Couldn't bind: 24: Too many open files.错误,netstat -natep | grep 代理端口 或爬虫进程ID,有大量ESTABLISHED的连接。 Socket error 10024,具体错误信息就是Too many open file 阅读全文
posted @ 2019-01-17 15:31 sammyzhang 阅读(597) 评论(0) 推荐(0) 编辑

2018年12月27日

摘要: 现象为用scrapy crawler跑没有问题,但将爬虫提交给scrapyd运行,找不到项目中的spider。经过反复调试后发现,是settings中将LOG_STDOUT置为True导致,将LOG_STDOUT设为False问题决绝。 阅读全文
posted @ 2018-12-27 10:26 sammyzhang 阅读(399) 评论(0) 推荐(0) 编辑

2018年12月19日

摘要: scrapy的Request可以不借助本地web服务,直接对本地文件发起请求并获取文件内容。 关键在于请求文件的路径格式,以windows环境为例: 绝对路径:url = 'file:///c:/Projects/Article/spiders/start.html'绝对路径:url = 'file 阅读全文
posted @ 2018-12-19 09:55 sammyzhang 阅读(565) 评论(0) 推荐(0) 编辑

2018年12月6日

摘要: 最近用selenium+chrome做测试或爬虫的时,发现chrome被强制升级了,如果在项目中需要使用指定版本,由于升级后的chrome与驱动版本不符,会导致各种异常。 我在之前的一个项目中使用的是53版本的chrome(需要自动播放flash,新版chrome默认不会自动播放flash,需要添加 阅读全文
posted @ 2018-12-06 10:31 sammyzhang 阅读(998) 评论(0) 推荐(0) 编辑

2016年3月16日

摘要: Selenium WebDriver支持驱动众多的浏览器,包括PhantomJS、HtmlUnitDriver等无界面浏览器,他们速度快,但在兼容性上还是有点问题,有时会遇到页面JS执行错误,在一些应用场合,页面内容提取也不够简洁方便。 对于常用的桌面浏览器,兼容性很好,但在执行性能上较无界面浏览器 阅读全文
posted @ 2016-03-16 16:17 sammyzhang 阅读(6449) 评论(0) 推荐(0) 编辑
摘要: WebDriver的get()方法只会在当前窗口( current browser window)加载页面,并且会阻塞程序的运行,直至页面加载完毕(onload)或者超时,超时可以通过在初始化实例时进行设置: 如果需要用一个WebDriver实例同时操作多个浏览器窗口,需要留意该特性造成的影响。默认 阅读全文
posted @ 2016-03-16 13:07 sammyzhang 阅读(1306) 评论(0) 推荐(0) 编辑

2016年3月15日

摘要: Selenium WebDriver的相关介绍及资源下载:http://docs.seleniumhq.org/ 在2016年2月份Selenium WebDriver更新到了2.52.0版本,建议在使用旧版本的更新至该版本,在稳定性和性能上提高不少。 Selenium支持驱动众多的浏览器,包括PC 阅读全文
posted @ 2016-03-15 17:37 sammyzhang 阅读(3267) 评论(0) 推荐(0) 编辑

导航