自然语言处理——词典分词
什么是词典分词:
词典分词是最简单、最常见的分词算法,它是一套仅需一部词典和一套查词典的规则。
什么是词:
语言学的定义:具有独立意义的最小单位。这太模糊了,”最小单位”到底什么是最小呢?
基于词典的中文分词法中对于词的定义:,在词典中的字符串才是词,词典之外的不是词。
根据齐夫定律:一个“不容易”见到的词,出现的次数是较少的。所以常见单词的切分,我们可以放心的采用词典分词。
什么是词典分词:
词典分词是最简单、最常见的分词算法,它是一套仅需一部词典和一套查词典的规则。
什么是词:
语言学的定义:具有独立意义的最小单位。这太模糊了,”最小单位”到底什么是最小呢?
基于词典的中文分词法中对于词的定义:,在词典中的字符串才是词,词典之外的不是词。
根据齐夫定律:一个“不容易”见到的词,出现的次数是较少的。所以常见单词的切分,我们可以放心的采用词典分词。