对分词的一些看法，最近看到不少，不说不快

关于分词得研究由来已久，最近看到博客园里类似文章不断，于是想说说自己的看法。

    对于分词算法，首先我觉得是一个数学和文学的问题而非编程技术的问题，肯到很多同学不厌其烦的孜孜不倦的追求最完美的分词程序，其实我看大可不必，当然对于编程技术的完美追求是好的，不过应该是力气用错了地方。
    最先看到的是《天书般的ICTCLAS分词系统代码（一）》，在此不对zhenyulu兄的Post做任何评价，不过在看到很多人发布自己的分词代码，感觉很多同学在用一个庞大的工程来锻炼自己写链表的能力，实在觉得浪费资源。分词是一个算法问题，这个也许是只有汉语才存在的问题（英文其实不需要分词，因为每个单词用空格隔开了）对于算法问题是首先需要有了优秀的算法，才能出现优秀程序，而对于中文分词，很多同学都用程序的眼光去看待其实是不对的，打个比方，冒泡法排序，算法已经确定的情况下你的程序再优化也不能超过其理论上限，这个是数学理论所决定好了的，数学是所有科学的基础，如果向基础理论挑战无疑是唐吉坷德挑战风车一般。程序无非是用计算机语言去诠释数学的理论，而面向搜索的中文分词设计一文所发布的程序，个人认为精神可嘉，但行为不可取，因为从根本上的算法就不够先进，所以程序出来也不会很出色，如果大家想研究算法的话，还是先搞好算法本身，再去用程序证明会比较好一点。

   PS一下，说说自己对分词算法的一点看法，分次算法首先要对中文的文法有深入的研究才能提出最优化的算法，呵呵，所以想搞中文分词的话最好学好语文先：}。根据自己学习母语二十多年来的一点浅薄经验来看，中文整句的分词识别找到谓语是最重要的，因为谓语是构成文法的谓词结构主要组成部分，谓语一确定，主语宾语的词分出来就好识别的。

不是自己的主攻方向，不过说点自己的见解，如果有不同意见欢迎讨论

posted on 2007-03-19 10:51 亚历山大同志阅读(4038) 评论(36) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 周边上新：园子的第一款马克杯温暖上架
· Open-Sora 2.0 重磅开源！
· 分享 3 个 .NET 开源的文件压缩处理库，助力快速实现文件压缩解压功能！
· Ollama——大语言模型本地部署的极速利器
· [AI/GPT/综述] AI Agent的设计模式综述

懒人居 - Coding for fun

对分词的一些看法，最近看到不少，不说不快

导航

公告

统计

搜索

常用链接

最新随笔

我的标签

积分与排名

随笔分类 (129)

随笔档案 (133)

相册 (36)

朋友的Blog

同事的Blog

阅读排行榜

评论排行榜

推荐排行榜

最新评论