随笔分类 -  中文分词

摘要:我开发的中文分词程序,开源发布,其实哪个中文分词的整体架构是比较糟糕的。架构是否优秀决定了很多构思无法实现,思考了比较久,最近准备开发第二版,抛弃以前的架构,重新实现。下面是一些设计和构思。计划是两周时间开发完成beta版(如果因为工作关系,也有可能放弃),主要是希望和大家交流下设计思想,我觉得构思很重要,想得实现不了,可以慢慢研究,想不到才是头大的问题,希望能和大家一起交流下:新版中文分词构想(... 阅读全文
posted @ 2007-03-19 09:47 kwklover 阅读(8948) 评论(19) 推荐(0) 编辑
摘要:花了近2周的时间,自己开发的中文分词程序终于有点小样了.在这两周的中文分词开发中,不断挑战自己的基础,感觉中文分词涉及到的东西越来越“研究级”, 像我等非"研究级"coder还是要适可而止啊。 目前而言,只实现了以下功能:1,中英文,数字混合识别,比如 微软(Microsoft)是一家年收入上100亿的世界性软件公司 微软/(/Microsoft/)/是/一家/年收入/上/100/亿/的/世界性... 阅读全文
posted @ 2007-02-12 09:48 kwklover 阅读(7485) 评论(24) 推荐(3) 编辑

点击右上角即可分享
微信分享提示