2016 年 5月 26 日随笔档案 - fwensen

2016年5月26日

摘要：自1994年万维网出现后，互联网上的网页数量就呈指数级生长，到目前为止，短短二十余年，互联网上就有成百上千亿网页。如何在这海量的网页中搜索下载具有对特定场景有价值的网页？使用什么样的策略能保证网页不会出现重复？如何保证爬虫程序的高并发爬取？如何在网页中提取关键点等等问题，这是本篇博客重点描述的内... 阅读全文

posted @ 2016-05-26 01:01 fwensen 阅读(290) 评论(0) 推荐(0) 编辑

Vincent's Blog

公告

Hello welcome to my blog, i am a uestcer!