摘要: 其实,lucene是一个很容易上手的搜索引擎框架,传统的搜索引擎,涉及到爬虫,也就是爬取网页,然后对网页进行加工,也就是索引,最后用于搜索,lucene这个框架可以很方便的帮你做到后面两个步骤,也就是索引和搜索!本文尝试通过一个例子,使大家掌握lucene的使用核心方法,包括分词、索引、搜索不同的目录、搜索不同的域,希望大家通过这个实例,对lucene和搜索引擎能有比较全面的认识! 其实,luce... 阅读全文
posted @ 2009-10-23 21:04 杨子宜 阅读(243) 评论(0) 推荐(0) 编辑
摘要: Hadoop 的基本结构介绍(原创) 概述: 这是我看了 Hadoop core 0.17.0 文档只有做的一些总结,有不对的地方请给我指出。 什么是 Hadoop? Hadoop 是一个用于运行应用程序在大型集群的廉价硬件设备上的框架。 Hadoop 为应用程序透明的提供了一组稳定 / 可靠的接口和数据运动。在 Hadoop 中实现了 Google 的 MapReduce 算法,它能够把应... 阅读全文
posted @ 2009-10-23 21:02 杨子宜 阅读(290) 评论(0) 推荐(0) 编辑
摘要: Hadoop学习笔记一 简要介绍 这里先大致介绍一下Hadoop. 本文大部分内容都是从官网Hadoop上来的。其中有一篇介绍HDFS的pdf文档,里面对Hadoop介绍的比较全面了。我的这一个系列的Hadoop学习笔记也是从这里一步一步进行下来的,同时又参考了网上的很多文章,对学习Hadoop中遇到的问题进行了归纳总结。 言归正传,先说一下Hadoop的来龙去脉。谈到Hadoop就不得不提到L... 阅读全文
posted @ 2009-10-23 21:01 杨子宜 阅读(179) 评论(0) 推荐(0) 编辑
摘要: 在lucene使用过程中,如果要对同一IndexWriter中不同Document,不同Field中使用不同的analyzer,我们该如何实现呢?通过对《lucene in action》的阅读,发现是可以解决这一问题的。lucene可以正对整个IndexWriter对象或者每一个document对象或者特定Field使用不同的分析器。Analyzer analyzer = new Standar... 阅读全文
posted @ 2009-10-23 20:55 杨子宜 阅读(256) 评论(0) 推荐(0) 编辑