摘要: 1. 科普 通用搜索引擎处理的对象是互联网的网页,目前网页的数量数以亿计,所以搜索引擎面临的第一个问题是如何设计出高效的下载系统,已将海量的网页下载到本地,在本地形成互联网网页的镜像。网络爬虫就是担当此大任的。 抓取网页的过程其实和读者平时使用IE浏览器浏览网页的道理是一样的。比如说你在浏... 阅读全文
posted @ 2014-05-06 17:41 jihite 阅读(5204) 评论(0) 推荐(0) 编辑