摘要:
本博文为介绍如果采用二元词图以及Viterbi算法分词的系列博文之一,为主体算法模块,欢迎有此方面学习需要的朋友按顺序阅读。中文分词:采用二元词图以及viterbi算法(一)中文分词:采用二元词图以及viterbi算法(二) 中文分词:采用二元词图以及viterbi算法(四)下面讲解算法主体实现部分:首先给个定义:未登录词在我的程序设计体系中未登录词分为两种:“单词未登录词”... 阅读全文
摘要:
本系列讲完 阅读全文
摘要:
主程序:主程序 Code highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlighter.com/--#-*-coding:cp936-*-result=[]delimiter=''delimiter2='|'fromBigramwordsegemtation2importBygramVi... 阅读全文
摘要:
中文分词:采用二元词图以及Viterbi算法(三)中文分词:采用二元词图以及Viterbi算法(一)1。首先建立词典。此处词典要理解为:对训练语料库中的词进行词频等信息的统计后形成的数据结构,和“新华字典”中的字典意义不一样。我的实现中建立了两个词典:“单词”词典统计每个词的出现次数,“双词”词典统计每两个词连续出现的次数(因... 阅读全文
摘要:
说明: 本程序为中科院研究生院刘群老师的课程《计算语言学》的一个课程作业。所以,语料库来源于刘群老师,格式是1998年1月人民日报语料库经过编码后的格式。 语料库格式见正向最大匹配。关于二元词图以及Viterbi算法的入门性质介绍见二元词图,Viterbi算法入门简介 下面简单说一下:二元分词的思路。1. 建立词图:词图上的节点为单字(如果此单字在字典中出现,它的初始概率就由语料库计算,否则赋极小... 阅读全文