摘要: 1.确定搜索的内容2.网络信息爬去 2.1 抓取网页(网络浏览器和网络爬虫) 2.2 多线程,从一个种子集合开始 2.3 robots.txt允许访问的文件,礼貌策略,访问时间限制 2.4 时新性,评估每一个页面的变化比率 2.5 垂直搜索,面向主题的信息采集,主题爬虫,判断一个网页和某个主题相关, 2.6 深层网络,(私人站点,表单结果,脚本页面(比较复杂,需要模拟js运行)) 2.7 网站地图(robots.txt含有一个对网站地图的引用,可以告诉爬虫爬取网页的相关信息,例如时薪,重要,主题 2.8 分布式网络爬虫,使用多个URL队列,使用散列函数,将URL分配给多个信息采... 阅读全文
posted @ 2013-11-13 16:52 曹守鑫 阅读(252) 评论(0) 推荐(0) 编辑