2020 年 7月 4 日随笔档案 - HBU_DAVID

【NLP CODE】基于词典的中文分词算法1：最大匹配法

摘要： REF：https://zhuanlan.zhihu.com/p/103392455 # 正向最大匹配法（FMM，Forward Maximum Matching） # 反向最大匹配法（BMM, Backward Maximum Matching） # 双向最大匹配法首先看两种方法结果的分词数，分阅读全文

posted @ 2020-07-04 20:28 HBU_DAVID 阅读(916) 评论(0) 推荐(0) 编辑

基于统计的中文分词算法3：条件随机场

摘要：条件随机场(Conditional Random Field，简称CRF)是一种判别式无向图模型，它是随机场的一种，常用于标注或分析序列语料，如自然语言文字或是生物序列。跟隐马尔可夫模型通过联合分布进行建模不同，条件随机场试图对多个变量在给定观测值后的条件概率进行建模。阅读全文

posted @ 2020-07-04 13:06 HBU_DAVID 阅读(270) 评论(0) 推荐(0) 编辑

基于统计的中文分词算法2：隐马尔可夫模型

摘要：隐马尔可夫模型(Hidden Markov Model，简称HMM)是结构最简单的动态贝叶斯网络(dynamic Bayesian network)，这是一种尤其著名的有向图模型，主要用于时序数据建模，在语音识别、自然语言处理等领域有广泛应用。在分词算法中，隐马尔可夫经常用作能够发现新词的算法，通阅读全文

posted @ 2020-07-04 13:04 HBU_DAVID 阅读(272) 评论(0) 推荐(0) 编辑

基于统计的中文分词算法1：n元模型

摘要：基于词的n元语法模型是一个典型的生成式模型，早期很多统计分词均以它为基本模型，然后配合其他未登录词识别模块进行扩展。其基本思想是：首先根据词典(可以是从训练语料中抽取出来的词典，也可以是外部词典)对句子进行简单匹配，找出所有可能的词典词，然后，将它们和所有单个字作为结点，构造的n元切分词图，图中的阅读全文

posted @ 2020-07-04 13:02 HBU_DAVID 阅读(555) 评论(0) 推荐(0) 编辑

基于词典的中文分词算法2：最少分词法

摘要：最少切分分词算法该分词算法依据最少切分原则，从几种分词算法切分结果中取切分词数最少一种的。比如，从正向最大匹配和逆向最大匹配两者中选择词数较少的方案，当词数相同时，采取某种策略，选择其中一个。 https://blog.csdn.net/cuixianpeng/article/details/4 阅读全文

posted @ 2020-07-04 12:52 HBU_DAVID 阅读(1152) 评论(0) 推荐(0) 编辑

基于词典的中文分词算法3：最大概率法

摘要：最大概率法分词是在最大匹配分词算法上的改进。在某些语句切分时，按最大长度切分词语可能并不是最优切分。而不按最优长度切分词语，则同一语句会出现多种切分结果。计算每种切分结果的概率，选取概率最高的切分作为最优分词切分。 http://www.shizhuolin.com/?p=1860 阅读全文

posted @ 2020-07-04 12:45 HBU_DAVID 阅读(645) 评论(0) 推荐(0) 编辑

基于词典的中文分词算法1：最大匹配法

摘要： https://zhuanlan.zhihu.com/p/103392455 https://www.cnblogs.com/dahuang123/p/11990651.html https://www.cnblogs.com/by-dream/p/6429615.html 阅读全文

posted @ 2020-07-04 12:39 HBU_DAVID 阅读(390) 评论(0) 推荐(0) 编辑

中文分词常用方法

摘要： https://www.cnblogs.com/ysherlock/p/7822304.html 基于词典的方法、基于统计的方法、基于规则的方法 1、基于词典的方法（字符串匹配，机械分词方法）定义:按照一定策略将待分析的汉字串与一个大机器词典中的词条进行匹配，若在词典中找到某个字符串，则匹配成功。阅读全文

posted @ 2020-07-04 11:53 HBU_DAVID 阅读(2026) 评论(0) 推荐(0) 编辑

Notebook