2011 年 10月 22 日随笔档案 - zhoulinhu

2011年10月22日

搜索引擎Larbin结构分析

摘要：互联网是一个庞大的非结构化的数据库，将数据有效的检索并组织呈现出来有着巨大的应用前景，尤其是类似RSS的以XML为基础的结构化的数据越来越多，内容的组织方式越来越灵活，检索组织并呈现会有着越来越广泛的应用范围，同时在时效性和可读性上也会有越来越高的要求。这一切的基础是爬虫，信息的来源入口。一个高效，灵活可扩展的爬虫对以上应用都有着无可替代的重要意义。要设计一个爬虫，首先需要考虑的效率。对于网络而言，基于TCP/IP的通信编程有几种方法。第一种是单线程阻塞，这是最简单也最容易实现的一种，一个例子：在Shell中通过curl，pcregrep等一系统命令可以直接实现一个简单的爬虫，但同时它的效率问阅读全文

posted @ 2011-10-22 11:12 zhoulinhu 阅读(301) 评论(0) 推荐(0) 编辑

虎虎生威

搜索引擎Larbin结构分析

导航

公告