摘要: [TOC] 前言 在 "浅谈分词算法(1)分词中的基本问题" 我们讨论过基于词典的分词和基于字的分词两大类,在 "浅谈分词算法(2)基于词典的分词方法" 文中我们利用n gram实现了基于词典的分词方法。在(1)中,我们也讨论了这种方法有的缺陷,就是OOV的问题,即对于未登录词会失效在,并简单介绍了 阅读全文
posted @ 2018-02-24 17:22 xlturing 阅读(4542) 评论(3) 推荐(1) 编辑
摘要: [TOC] 前言 在 "浅谈分词算法(1)分词中的基本问题" 中我们探讨了分词中的基本问题,也提到了基于词典的分词方法。基于词典的分词方法是一种比较传统的方式,这类分词方法有很多,如:正向最大匹配(forward maximum matching method, FMM)、逆向最大匹配(backwa 阅读全文
posted @ 2018-02-24 17:21 xlturing 阅读(11173) 评论(1) 推荐(0) 编辑
摘要: [TOC] 前言 分词或说切词是自然语言处理中一个经典且基础的问题,在平时的工作中也反复的接触到分词问题,用到了不同的模型,不同的方法应用在各个领域中,所以想对分词问题做一个系统的梳理。大多数分词问题主要是针对类似汉语、韩语、日语等,词语之间并没有天然的分割,而像英语等,句子中是带有天然的分割的。但 阅读全文
posted @ 2018-02-24 17:20 xlturing 阅读(3964) 评论(1) 推荐(4) 编辑