自然语言处理——词典分词

什么是词典分词:

词典分词是最简单、最常见的分词算法,它是一套仅需一部词典和一套查词典的规则。

什么是词:

语言学的定义:具有独立意义的最小单位。这太模糊了,”最小单位”到底什么是最小呢?

基于词典的中文分词法中对于词的定义:,在词典中的字符串才是词,词典之外的不是词。

根据齐夫定律:一个“不容易”见到的词,出现的次数是较少的。所以常见单词的切分,我们可以放心的采用词典分词。

posted @ 2020-07-14 22:01  猫七的blog  阅读(391)  评论(0编辑  收藏  举报