改动下ICTCLAS4J 0.9.1 提供了分词速度

 

改动下ICTCLAS4J 0.9.1,简化代码并做了一个提高了性能的不死机的DOS 命令segtag.bat

ICTCLAS4J_0.9.1 是中科院张华平的分词系统的Java 版,改版作者Sinboy,发布在http://code.google.com/p/ictclas4j/, 我改动了一下几个地方

1. 对getNextElement采用建立临时索引的方式提高了几倍的分词速度
2. 注释了firstAdjust处的 index-- 和 index -= 2两句
3. 建立segtag.bat 方便处理文本文件

   现在对一个文本文件分词, 运行下列命令即可
        segtag < input_corpus.txt > output_segtaged.txt

  直接运行 segtag 
        那么自己输入语句,一回车就可以看到分词结果

4. 删除了使用Log4J的监控日志代码,删除了每一步骤耗用的时间信息输出,删除了图形界面代码,
只留下bin目录下的class文件,src目录下的Java 源代码,Data目录下的词典数据和SegTag.bat 简化了程序

下载可以在 http://groups.google.com/group/ictclas/web/ictclas4j.zip

posted on 2010-04-07 18:40  cy163  阅读(493)  评论(0编辑  收藏  举报

导航