2012年5月10日

web spider 和 web scraper

摘要: 作者:M. Tim Jones(mtj@mtjones.com), 资深软件工程师, Emulex简介:Web spider 是用来进行 Internet 信息的搜索、过滤和聚合的软件代理。使用通用脚本语言和一些 Web 模块组合,就可以轻松地开发自己的 Web spider。本文介绍了如何为 Linux® 构建 spider 和 scraper,从而实现在 Web 站点上爬行并搜集信息,具体到本例就是搜集股票数据。spider是一个为实现特定目的以特定方法在 Internet 上爬行的程序。其目的可能是为了搜集信息也可能是为了理解 Web 站点的结构和有效性。spider 是现代搜 阅读全文

posted @ 2012-05-10 11:17 len_sround 阅读(1085) 评论(0) 推荐(0) 编辑

导航