摘要:
我们人类确知道第二种更加合理,只因为我们从小到大接触的都是第二种分词,出现的次数多,所以我们判定第二种是正确地选择。这就是利用了**统计自然语言处理**。统计自然语言处理的核心话题之一,就是如何利用统计手法对语言建模,这一章讲的就是二元语法的统计语言模型。
阅读全文
摘要:
词典分词2.1 什么是词2.2 词典2.3 切分算法2.4 字典树2.5 基于字典树的其它算法2.6 HanLP的词典分词实现2.7 GitHub项目
2. 词典分词
中文分词:指的是将一段文本拆分为一系列单词的过程,这些单词顺序拼接后等于原文本。
中文分词算法大致分为基于词典规则与基于机器学习这两大派。
2.1 什么是词
在基于词典的中文分词中,词的定义要现实得多:词典中的...
阅读全文