2013 年 2月 1 日随笔档案 - 杨桃

2013年2月1日

摘要：在搜索程序较为棘手一部分就是搜索范围。绝大数搜索程序都不能在单台计算机上完成足够数量的数据搜索或并发搜索。有时候为了避免由于单硬件问题出现导致无法服务，可以运行在多台机器上。这种设计能够不影响当前搜索程序运行的情况下临时推出一台计算机来进行维护和升级。搜索范围有两种界定方式：净处理内容和净查询吞吐量。如果处理的数据量较大的话必须将这些数据分割成各个小部分，以便让多台分离的计算机分别搜索对应的部分。前端服务器会将新来的查询请求发送至所有部分，然后将各个部分的搜索结果合并成总的搜索结果集。如果你想在程序使用的高峰期获得较高的搜索吞吐量，那么你必须将同一索引复制到前述多个计算机上，前端加载平阅读全文

posted @ 2013-02-01 17:30 杨桃阅读(348) 评论(0) 推荐(0) 编辑

Lucene索引核心类研究

摘要：简单的建立索引和查询索引并不难，关键在于他的二次开发，让他适合你自己的需求既然要二次开发就必须查看源码首先看看索引过程中的核心类吧：IndexWriter 这个是核心组件，建立和打开索引，以及向文档中添加、删除或更新被索引文档的信息。Directory 描述了Lucene索引的存放位置，他是一个抽象类，一般都用FSDirectory.open（）,Analyzer IndexWriter 必须指定一个分词器（分析器），Document 代表了一些域的集合，他表示了每个所要保存的单个文本Field (4.0 以后就不是Field 了， LongField， TextField ，String. 阅读全文

posted @ 2013-02-01 14:17 杨桃阅读(3390) 评论(1) 推荐(0) 编辑

杨桃

关注编程，在编程中成长 http://taotao-chong-zhi.taobao.com/

公告