Alic - 博客园

2008年6月6日

摘要：与基于理解的分词算法和基于统计的分词算法相比，基于文本匹配的算法更加通用。基于文本匹配的算法又称之为“机械分词算法”，他是它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配，若在词典中找到某个字符串，则匹配成功，可识别出一个词。按照扫描方向的不同，文本匹配分词方法可以分为正向匹配和逆向匹配两种；按照不同长度优先匹配的情况，可以分为最大（最长）匹配和最小（最短）匹配；按照是否与词性标注过程相结合，又可以分为单纯分词方法和分词与标注相结合的一体化方法。阅读全文

posted @ 2008-06-06 11:02 Alic 阅读(6135) 评论(3) 推荐(0)

2008年4月9日

Mapbar坐标的加密与解密算法

摘要： Mapbar坐标的加密与解密算法解密阅读全文

posted @ 2008-04-09 11:46 Alic 阅读(2335) 评论(2) 推荐(0)

2008年4月7日

Lucene Java 2.3版本发布，大幅提高性能

摘要： Apache Lucene项目是一个完全用Java编写的高性能、全功能的文本搜索引擎库，今天它发布了2.3版。项目管理委员会（PMC）成员以及提交者Grant Ingersoll这样描述这次发布的版本以及Lucene未来的计划。 Ingersoll认为这次的版本中最大的变化是新的索引算法，它使用了新的in-memory模型来达到大幅的速度提升。据Ingersoll说，单单是把Lucene 2.2 JAR换成Lucene 2.3 JAR就能在某些测试中把索引性能提速500%。其他改变还包括：阅读全文

posted @ 2008-04-07 09:36 Alic 阅读(879) 评论(3) 推荐(0)

2008年3月31日

Lucene中创建索引的效率和删除索引的实现

摘要：越来越多的人利用开源组件 Lucene来开发自己的搜索引擎。在数据量不大的情况下，我们不会太关注创建索引的效率；但是，但数据达到一定的数量是，我们就不得不考虑如何提高创建索引的性能，以缩短索引创建的时间。我们是用Lucene中提供的类IndexWriter来创建索引的，所以我们不妨先看一看IndexWriter类中关系到索引创建效率的几个方法。一、SetMergeFactor（合并因子） SetMergeFactor是控制segment合并频率的，其决定了一个索引块中包括多少个文档，当硬盘上的索引块达到多少时，将它们合并成一个较大的索引块。当MergeFactor值较大时，生成索引的速度较快。MergeFactor的默认值是10，建议在建立索引前将其设置的大一些。阅读全文

posted @ 2008-03-31 16:54 Alic 阅读(2012) 评论(0) 推荐(0)

公告