摘要: 做一个网络爬虫的程序吧,根据客户的需求,要求把相关的内容爬取到本地最终选择的是apache nutch,到目前为止最新的版本是1.31. Nutch是什么?Nutch是一个开源的网页抓取工具,主要用于收集网页数据,然后对其进行分析,建立索引,以提供相应的接口来对其网页数据进行查询的一套工具。其底层使用了Hadoop来做分布式计算与存储,索引使用了Solr分布式索引框架来做,Solr是一个开源的全文索引框架,从Nutch 1.3开始,其集成了这个索引架构2. 在哪里要可以下载到最新的Nutch?在下面地址中可以下载到最新的Nutch 1.3二进制包和源代码http://mirror.bjtu.e 阅读全文
posted @ 2012-07-29 11:38 skyme 阅读(15785) 评论(0) 推荐(2) 编辑
摘要: 什么是nosqlNoSQL(NoSQL = Not Only SQL),意思是不仅仅是SQL的扩展,一般指的是非关系型的数据库。随着互联网web2.0网站的兴起,传统的关系数据库在应付web2.0网站,特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心,传统的电信行业动辍就千万甚至上亿的数据,甚至有客户提出需要存储相关的日志数据50年以上,暴露了很多难以克服的问题,而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。关系型数据库难以克服的问题:不能很好处理对数据库高并发读写的需求不能很好处理对海量数据的高效率存储和访问的需求不能很好处理对数据库的高可扩展性和高可用 阅读全文
posted @ 2012-07-29 11:21 skyme 阅读(22578) 评论(1) 推荐(7) 编辑