君子博学而日参省乎己 则知明而行无过矣

博客园 首页 新随笔 联系 订阅 管理

2011年5月30日 #

摘要: 1。lucene的索引尽量不要频繁而小量的编制,比如:用户每发一个贴子,就加入索引,那样对索引的结构和效率不利。 可以采用定时或者定量,批量处理索引的方式。 2。在批量处理的基础上,解决冲突的问题的方案之一就是在同一个线程里操作Writer和reader。我们知道,lucence在 1.4之前是没有所谓的modify操作的,所有的modifer操作可以分解为delete和add,那么实际上,在批量索引的任务栈里 只有两种类型的操作:delete和add。让处理线程总是先执行delete,在执行add就好。 3。任何时候,索引线程实例只有一个在工作! 满足以上3点,能较好地处理目前大部分情况下. 阅读全文
posted @ 2011-05-30 04:26 刺猬的温驯 阅读(209) 评论(0) 推荐(0) 编辑

摘要: lucene.net好多人都知道的吧,反正我是最近才好好的看了一下,别笑我拿历史当新闻哦,不太了解Lucence的朋友先听我说两句哦。Lucene的知识主要分为索引、搜索、分析器、性能优化几个部分。索引和搜索没啥可说的,看几个例子就会了,来回那一套儿,按部就班做几个实验就熟悉了。分析器是Lucence的精华,又分为分词和过滤两部分,而且中文分词更是难点,我的例子里是用从博客园程序中提取出来的Lucene.Net.Analysis.Cn.dll来实现中文分词的,谁有中科院的那套中科院ICTCLAS分词工具的C#版麻烦提供一下哦。性能优化也很重要,因为如果要索引的文件比较大的话,建立索引的性能就会 阅读全文
posted @ 2011-05-30 04:24 刺猬的温驯 阅读(346) 评论(0) 推荐(0) 编辑

摘要: 转:这个东西在2006年初,我就开始在项目中使用.我对它也有了一些了解. 但因为主要开发还是小兵们在做. 所以仅仅了解了一些皮毛. 下面我将以知识点的形式, 列出来. 以笔记的形式连载. 也方便大家一起学习. 每一个点, 我都会写一个知识点. 1, 2005年的时候, 听说了lucene. 是一个开源的搜索引擎开发包. 而不是一个搜索引擎,请切记. 2, 如果开始学习它, 就需要至少知道,它所包含的包. 目前lucene已经到了2.2版本. 当然你需要时刻关注他的最新版本. 目前包: lucene-core-2.2.0.jar . 下载可以到apache的网站上下载. 这一个就够了.不用下别的 阅读全文
posted @ 2011-05-30 04:17 刺猬的温驯 阅读(869) 评论(0) 推荐(1) 编辑