上一页 1 ··· 15 16 17 18 19 20 21 22 23 ··· 34 下一页
摘要: 一 首先想到的是将selenium 写在下载中间件的process_request中。如以下代码。 middleware.py 但这有一个问题是,打开的selenium并不能关闭 二 可以考虑将driver放在spider中。 好处有以下几点: 1 并不是每个spider 都是需要用selenium 阅读全文
posted @ 2018-05-01 22:47 骑者赶路 阅读(183) 评论(0) 推荐(0) 编辑
摘要: https://github.com/factsbenchmarks/Weibo 学到的东西。 1 习惯用logger,而不是用print 2 习惯用正则表达式 这是在pipeline清理数据时用到的 3 time模块都快忘干净了吧 4 eval的妙用,还可以这样用! 注释的是lowB代码。如果字段 阅读全文
posted @ 2018-05-01 18:02 骑者赶路 阅读(178) 评论(0) 推荐(0) 编辑
摘要: 解决办法 查了很多资料,包括下载vc,然而并没有什么卵用。 最后在这里找到方法了 http://landinghub.visualstudio.com/visual-cpp-build-tools https://wiki.python.org/moin/WindowsCompilers 执行下面这 阅读全文
posted @ 2018-05-01 14:03 骑者赶路 阅读(255) 评论(0) 推荐(0) 编辑
摘要: Parse命令,Scrapy shell,logging 一 Parse命令 检查spider输出的最基本方法是使用Parse命令。这能让你在函数层上检查spider哥哥部分的效果,其十分灵活并且已用。不过不能在代码中测试。 https://docs.scrapy.org/en/latest/top 阅读全文
posted @ 2018-04-29 18:06 骑者赶路 阅读(361) 评论(0) 推荐(0) 编辑
摘要: https://blog.csdn.net/done58/article/details/50996680 阅读全文
posted @ 2018-04-28 16:25 骑者赶路 阅读(134) 评论(0) 推荐(0) 编辑
摘要: 一 scrapy添加代理 1 内置代理:os.environ。 固定格式,不推荐 2 自定义代理:通过中间件实现 阅读全文
posted @ 2018-04-27 00:23 骑者赶路 阅读(257) 评论(0) 推荐(0) 编辑
摘要: 一 总结 页面是异步加载,页面滑动的过程中,每张图片的url才显示。所以推荐selenium。同时需要selenium执行js代买,实现页面滚动的效果。就是window.scrollTo()方法。 在用scrapy框架中,并不是所有的request都是需要经过用selenium。经过selenium 阅读全文
posted @ 2018-04-22 21:24 骑者赶路 阅读(175) 评论(0) 推荐(0) 编辑
摘要: 如图所示: 阅读全文
posted @ 2018-04-21 17:44 骑者赶路 阅读(310) 评论(0) 推荐(0) 编辑
摘要: 这个实例还是值得多次看的 其流程图如下,还是有一点绕的。 总结: 1 Requst(rul=' xxx ',callback= ' '),仅仅发起 某个网页 的访问请求,没啥了。剩下的交给回调函数 2 parse_()。对 某个页面 经过下载后的 数据 进行处理,包括逻辑判断,有可能比较复杂,提取想 阅读全文
posted @ 2018-04-20 22:57 骑者赶路 阅读(327) 评论(0) 推荐(0) 编辑
摘要: 官方文档:https://docs.scrapy.org/en/latest/topics/downloader-middleware.html 一 write your own downloader middleware process_request(request,spider) return 阅读全文
posted @ 2018-04-19 22:15 骑者赶路 阅读(130) 评论(0) 推荐(0) 编辑
上一页 1 ··· 15 16 17 18 19 20 21 22 23 ··· 34 下一页