《数学之美》——第四章 个人笔记
第四章 谈谈分词
1 中文分词方法的演变
最早的方法(北航):查字典,可以解决七八成问题,成本不高,效果还行。
随后(哈工大):最少词数的分词理论,即一句话应该分词数量最少的词串。不足之处在于二义性。
郭进(清华):统计语言模型方法,文中有详细的公式说明。就是对一句话可能有S种分法,其中有一种分法出现的概率最大。里面涉及到动态规划和维特比算法,有张图表示过程:
这里提到:统计语言模型很大程度是依照‘’大众的想法‘’,或者说‘’多数句子的用法‘’,百分百是不可能的。
有关分词的两点说明:
⭐①不值得花大精力去进一步提高准确率,提升空间有限。
⭐②英文和主要西方语言原本无须分词的,手写体的原因(词与词之间写的时候常常无停顿)
2 延伸阅读:如何衡量分词的结果
2.1 分词的一致性
一个准确率在97%的分词器很难讲比一个准确率在95%的分词器要好,因为要看他们选用的所谓正确的人工分词的数据是如何得来的。
2.2 词的颗粒度和层次
人工分词产生不一致性的原因主要在于人们对词的颗粒度的认识问题。不同的应用中,会有一种颗粒度比另一种更好的情况。
机器翻译中颗粒度大好——"联想公司";网页搜索中小颗粒度好——"清华大学"。
不同的应用构造不同的分词器?不必要且浪费。⭐好的做法是让一个分词器同时支持不同层次的词的切分(原理和实现文中有具体说明)
⭐分词的不一致可以分为错误和颗粒度不一致两种
错误又分成两类:一类是越界型错误,‘北京大学生’分成‘北京大学-生’;另一类是覆盖性错误,‘贾里尼克’分成四个字。
颗粒度不一致:人工分词的不一致大多属于此类,要不断完善复合词的词典。