关于SharpICTCLAS的随想

SharpICTCLAS1.0版基于ICTCLAS1.0版,单机处理速度在8~9K/s,无法使用多线程。

相关链接:http://groups.google.com/group/ictclas
吕震宇的博客:http://www.cnblogs.com/zhenyulu
DanceFire的专栏:http://blog.csdn.net/DanceFire/archive/2007/04/17/1567881.aspx

个人随想:
(1)摒弃CCID的字符id模式,采用Unicode的codepage。尽量利用C#的比较函数
(2)Segment(Stream),从Stream中截取句子。句子一般以“,。、;:”等标点符号为分隔符。

posted on 2007-04-27 14:22  amber lee zhao  阅读(994)  评论(0编辑  收藏  举报

导航