切尔斯基

http://liguanglei.name
  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

开源.Net中文分词组件

Posted on 2006-11-08 17:59  chelsea  阅读(2473)  评论(0编辑  收藏  举报

最近接触到的中文分词组件均以C/C++写就,不得不包装一下用在.Net应用中;

现在把这层包装开源,可以在这里下载源代码: http://code.google.com/p/gold-stone-suite/

目前包装了两个分词组件,海量分词学习版和ICTCLAS学习版,License应该是这几个组件原有协议的交集

海量分词比较稳定,功能丰富,只是学习版2007年1月1号后就不能用了,不知到时网站上会不会更新学习版

ICTCLAS学习版没有提供DLL,只好先行改造为Win32 DLL;它自身Bug是比较多的,2002年后就不再维护了,它的收费版Bug应该少一点

Demo界面:


目前提供的功能很简单: public String Split(String input)

根据词性分词的功能正在增加中

 

欢迎加入提供更多实现