骑者赶路 - 博客园

2018年5月1日

摘要：一首先想到的是将selenium 写在下载中间件的process_request中。如以下代码。 middleware.py 但这有一个问题是，打开的selenium并不能关闭二可以考虑将driver放在spider中。好处有以下几点： 1 并不是每个spider 都是需要用selenium 阅读全文

posted @ 2018-05-01 22:47 骑者赶路阅读(183) 评论(0) 推荐(0) 编辑

爬取新浪微博

摘要： https://github.com/factsbenchmarks/Weibo 学到的东西。 1 习惯用logger，而不是用print 2 习惯用正则表达式这是在pipeline清理数据时用到的 3 time模块都快忘干净了吧 4 eval的妙用，还可以这样用！注释的是lowB代码。如果字段阅读全文

posted @ 2018-05-01 18:02 骑者赶路阅读(178) 评论(0) 推荐(0) 编辑

error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": http://landinghub.visualstudio.com/visual-cpp-build-tools

摘要：解决办法查了很多资料，包括下载vc，然而并没有什么卵用。最后在这里找到方法了 http://landinghub.visualstudio.com/visual-cpp-build-tools https://wiki.python.org/moin/WindowsCompilers 执行下面这阅读全文

posted @ 2018-05-01 14:03 骑者赶路阅读(255) 评论(0) 推荐(0) 编辑

2018年4月29日

scrapy的调试方法

摘要： Parse命令，Scrapy shell，logging 一 Parse命令检查spider输出的最基本方法是使用Parse命令。这能让你在函数层上检查spider哥哥部分的效果，其十分灵活并且已用。不过不能在代码中测试。 https://docs.scrapy.org/en/latest/top 阅读全文

posted @ 2018-04-29 18:06 骑者赶路阅读(361) 评论(0) 推荐(0) 编辑

2018年4月28日

Http、TCP/IP协议与Socket之间的区别

摘要： https://blog.csdn.net/done58/article/details/50996680 阅读全文

posted @ 2018-04-28 16:25 骑者赶路阅读(134) 评论(0) 推荐(0) 编辑

2018年4月27日

关于scarpy的一些说明

摘要：一 scrapy添加代理 1 内置代理：os.environ。固定格式，不推荐 2 自定义代理：通过中间件实现阅读全文

posted @ 2018-04-27 00:23 骑者赶路阅读(257) 评论(0) 推荐(0) 编辑

2018年4月22日

爬取腾讯漫画

摘要：一总结页面是异步加载，页面滑动的过程中，每张图片的url才显示。所以推荐selenium。同时需要selenium执行js代买，实现页面滚动的效果。就是window.scrollTo()方法。在用scrapy框架中，并不是所有的request都是需要经过用selenium。经过selenium 阅读全文

posted @ 2018-04-22 21:24 骑者赶路阅读(175) 评论(0) 推荐(0) 编辑

2018年4月21日

js中的clientHeight和offsetHeight的区别如

摘要：如图所示：阅读全文

posted @ 2018-04-21 17:44 骑者赶路阅读(310) 评论(0) 推荐(0) 编辑

2018年4月20日

scrapy爬取用户信息 ---崔志才

摘要：这个实例还是值得多次看的其流程图如下，还是有一点绕的。总结： 1 Requst(rul=' xxx ',callback= ' ')，仅仅发起某个网页的访问请求，没啥了。剩下的交给回调函数 2 parse_()。对某个页面经过下载后的数据进行处理，包括逻辑判断，有可能比较复杂，提取想阅读全文

posted @ 2018-04-20 22:57 骑者赶路阅读(327) 评论(0) 推荐(0) 编辑

2018年4月19日

scrapy之download middleware

摘要：官方文档：https://docs.scrapy.org/en/latest/topics/downloader-middleware.html 一 write your own downloader middleware process_request(request,spider) return 阅读全文

posted @ 2018-04-19 22:15 骑者赶路阅读(130) 评论(0) 推荐(0) 编辑

公告