2012 年 7月 9 日随笔档案 - 刺猬的温驯

ictclas4j for lucene analyzer

摘要：原文出处：http://blog.chenlb.com/2009/01/ictclas4j-for-lucene-analyzer.html在 lucene 的中文分词域里，有好几个分词选择，有：je、paoding、IK。最近想把 ictclas 拿来做 lucene 的中文分词。网上看了下资料，觉得 ictclas4j 是比较好的选择，作者博客相关文章：http://blog.csdn.net/sinboy/category/207165.aspx。ictclas4j 目前是0.9.1版，项目地址：http://code.google.com/p/ictclas4j/，下载地址：http: 阅读全文

posted @ 2012-07-09 22:49 刺猬的温驯阅读(448) 评论(0) 推荐(0) 编辑

中文分词 mmseg4j 在 lucene 中的使用示例

摘要：原文出处：http://blog.chenlb.com/2009/04/use-chinese-segment-mmseg4j-in-lucene-demo.htmlmmseg4j 发布也有一段时间了，前些日子忙着发布新的版本，修正 bug 之类的。使用示例一直拖到现在，其实 svn 上的 test 有使用 lucene 例子。如果你了解 lucene ，就不用例子也可以很方便与它集成。mmseg4j 有几个 analyzer：SimpleAnalyzer、ComplexAnalyzer、MaxWordAnalyzer、MMSegAnalyzer。前面三个都是继承 MMSegAnalyzer，阅读全文

posted @ 2012-07-09 22:47 刺猬的温驯阅读(3345) 评论(0) 推荐(0) 编辑

solr 中文分词 mmseg4j 使用例子

摘要：原文出处：http://blog.chenlb.com/2009/04/solr-chinese-segment-mmseg4j-use-demo.htmlmmseg4j 第一个版本就可以方便地与 solr 集成，在google code上面有简单的说明，第一版的发布博客也有简单的使用说明：中文分词 mmseg4j。为了更清楚说明在 solr 中使用 mmseg4j 中文分词，还是写篇博客吧。目前有两个版本的 mmseg4j，1.7 版比较耗内存（一个词库目录就要 50M 左右），所以在默认jvm内存大小会抛出 OutOfMemoryErroy。我这里示例两个词库目录，所以不用目前最新版 1. 阅读全文

posted @ 2012-07-09 22:45 刺猬的温驯阅读(4219) 评论(0) 推荐(1) 编辑

君子博学而日参省乎己则知明而行无过矣

公告

君子博学而日参省乎己 则知明而行无过矣

公告

君子博学而日参省乎己则知明而行无过矣