随笔档案「2012年9月10日」：搜索引擎-网络爬虫 ... - 夏至冬末

2012年9月10日

摘要：通用搜索引擎的处理对象是互联网网页，目前网页数量以百亿计，搜索引擎的网络爬虫能够高效地将海量的网页数据传下载到本地，在本地形成互联网网页的镜像备份。它是搜索引擎系统中很关键也很基础的构件。1. 网络爬虫本质就是浏览器http请求。浏览器和网络爬虫是两种不同的网络客户端，都以相同的方式来获取网页... 阅读全文

posted @ 2012-09-10 21:05 夏至冬末阅读(226) 评论(0) 推荐(0)