2009年10月29日

网络爬虫

摘要: 搜索引擎使用网络爬虫寻找网络内容,网络上的HTML文档使用超链接连接了起来,就像织成了一张网,网络爬虫也叫网络蜘蛛,顺着这张网爬行,每到一个网页就用抓取程序将这个网页抓下来,将内容抽取出来,同时抽取超链接,作为进一步爬行的线索。网络爬虫总是要从某个起点开始爬,这个起点叫做种子,你可以告诉它,也可以到一些网址列表网站上获取网页抓取/数据抽取/信息提取软件工具包MetaSeeker是一套完整的解决方案... 阅读全文

posted @ 2009-10-29 11:35 黄兆张's Blog 阅读(667) 评论(0) 推荐(0) 编辑

导航