随笔分类 - 中文分词
摘要:我开发的中文分词程序,开源发布,其实哪个中文分词的整体架构是比较糟糕的。架构是否优秀决定了很多构思无法实现,思考了比较久,最近准备开发第二版,抛弃以前的架构,重新实现。下面是一些设计和构思。计划是两周时间开发完成beta版(如果因为工作关系,也有可能放弃),主要是希望和大家交流下设计思想,我觉得构思很重要,想得实现不了,可以慢慢研究,想不到才是头大的问题,希望能和大家一起交流下:新版中文分词构想(...
阅读全文
摘要:花了近2周的时间,自己开发的中文分词程序终于有点小样了.在这两周的中文分词开发中,不断挑战自己的基础,感觉中文分词涉及到的东西越来越“研究级”, 像我等非"研究级"coder还是要适可而止啊。 目前而言,只实现了以下功能:1,中英文,数字混合识别,比如 微软(Microsoft)是一家年收入上100亿的世界性软件公司 微软/(/Microsoft/)/是/一家/年收入/上/100/亿/的/世界性...
阅读全文