2008年6月6日
摘要: 与基于理解的分词算法和基于统计的分词算法相比,基于文本匹配的算法更加通用。基于文本匹配的算法又称之为“机械分词算法”,他是它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功,可识别出一个词。按照扫描方向的不同,文本匹配分词方法可以分为正向匹配和逆向匹配两种;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。 阅读全文
posted @ 2008-06-06 11:02 Alic 阅读(6069) 评论(3) 推荐(0) 编辑
  2008年4月9日
摘要: Mapbar坐标的加密与解密算法解密 阅读全文
posted @ 2008-04-09 11:46 Alic 阅读(2271) 评论(2) 推荐(0) 编辑
  2008年4月7日
摘要: Apache Lucene项目是一个完全用Java编写的高性能、全功能的文本搜索引擎库,今天它发布了2.3版。项目管理委员会(PMC)成员以及提交者Grant Ingersoll这样描述这次发布的版本以及Lucene未来的计划。 Ingersoll认为这次的版本中最大的变化是新的索引算法,它使用了新的in-memory模型来达到大幅的速度提升。据Ingersoll说,单单是把Lucene 2.2 JAR换成Lucene 2.3 JAR就能在某些测试中把索引性能提速500%。其他改变还包括: 阅读全文
posted @ 2008-04-07 09:36 Alic 阅读(862) 评论(3) 推荐(0) 编辑
  2008年3月31日
摘要: 越来越多的人利用开源组件 Lucene来开发自己的搜索引擎。在数据量不大的情况下,我们不会太关注创建索引的效率;但是,但数据达到一定的数量是,我们就不得不考虑如何提高创建索引的性能,以缩短索引创建的时间。 我们是用Lucene中提供的类IndexWriter来创建索引的,所以我们不妨先看一看IndexWriter类中关系到索引创建效率的几个方法。 一、SetMergeFactor(合并因子) SetMergeFactor是控制segment合并频率的,其决定了一个索引块中包括多少个文档,当硬盘上的索引块达到多少时,将它们合并成一个较大的索引块。当MergeFactor值较大时,生成索引的速度较快。MergeFactor的默认值是10,建议在建立索引前将其设置的大一些。 阅读全文
posted @ 2008-03-31 16:54 Alic 阅读(1970) 评论(0) 推荐(0) 编辑