2018 年 4月 13 日随笔档案 - 寂静的天空

2018年4月13日

摘要：网站的树结构通过伯乐在线网站为例子：并且我们通过访问伯乐在线也是可以发现，我们从任何一个子页面其实都是可以返回到首页，所以当我们爬取页面的数据的时候就会涉及到去重的问题，我们需要将爬过的url记录下来，我们将上图进行更改在爬虫系统中，待抓取URL队列是很重要的一部分，待抓取URL队列中的URL 阅读全文

posted @ 2018-04-13 22:26 寂静的天空阅读(5103) 评论(0) 推荐(0) 编辑

爬虫去重策略

摘要： 1、将访问过的url保存到数据库中。（效率非常低） 2、将访问过的url保存到set中，只需要o(1)的代价就可以查询url。（内存占用大）（1亿条url占用6个G） 3、url经过md5等方法哈希后保存到set中（md5压缩url，降低内存）（scrapy使用的去重类似这种，1亿条url占用1个阅读全文

posted @ 2018-04-13 21:15 寂静的天空阅读(314) 评论(0) 推荐(0) 编辑

scrapy vs requests+beautifulsoup

摘要：两种爬虫模式比较： 1、requests和beautifulsoup都是库，scrapy是框架。 2、scrapy框架中可以加入requests和beautifulsoup。 3、scrapy基于twisted，性能是最大的优势。 4、scrapy方便扩展，提供了很多内置的功能。 5、scrapy内阅读全文

posted @ 2018-04-13 20:55 寂静的天空阅读(2261) 评论(0) 推荐(0) 编辑

Felix Wang

Do the right things! Talk is cheap,Show me the code!

公告