mantch  

2020年2月5日

摘要: 我们人类确知道第二种更加合理,只因为我们从小到大接触的都是第二种分词,出现的次数多,所以我们判定第二种是正确地选择。这就是利用了**统计自然语言处理**。统计自然语言处理的核心话题之一,就是如何利用统计手法对语言建模,这一章讲的就是二元语法的统计语言模型。 阅读全文
posted @ 2020-02-05 20:00 mantch 阅读(2511) 评论(0) 推荐(3) 编辑
 
摘要: 词典分词2.1 什么是词2.2 词典2.3 切分算法2.4 字典树2.5 基于字典树的其它算法2.6 HanLP的词典分词实现2.7 GitHub项目 2. 词典分词 中文分词:指的是将一段文本拆分为一系列单词的过程,这些单词顺序拼接后等于原文本。 中文分词算法大致分为基于词典规则与基于机器学习这两大派。 2.1 什么是词 在基于词典的中文分词中,词的定义要现实得多:词典中的... 阅读全文
posted @ 2020-02-05 13:57 mantch 阅读(1705) 评论(0) 推荐(2) 编辑