中文分词之逆向最大匹配算法结合时间位置进行分词

之前基于Lucene分词组件探索了按时间位置进行中文分词的算法，中文分词方面采用了最大逆向匹配算法，由于时间信息保存在一个List中，当每个词被切割出来时，其时间信息将会同时按序提取。将分词结果写入倒排索引的词表，时间信息写入到倒排表中的offset属性中。停词表和词汇表都保存在HashSet中。

逆向最大匹配法算法如下所示：
逆向匹配法思想与正向一样，只是从右向左切分，这里举一个例子：
输入例句：S1="计算语言学课程有意思" ；
定义：最大词长MaxLen = 5；S2= " "；分隔符 = “/”；
假设存在词表：…，计算语言学，课程，意思，…；
最大逆向匹配分词算法过程如下：
（1）S2=""；S1不为空，从S1右边取出候选子串W="课程有意思"；
（2）查词表，W不在词表中，将W最左边一个字去掉，得到W="程有意思"；
（3）查词表，W不在词表中，将W最左边一个字去掉，得到W="有意思"；
（4）查词表，W不在词表中，将W最左边一个字去掉，得到W="意思"
（5）查词表，“意思”在词表中，将W加入到S2中，S2=" 意思/"，并将W从S1中去掉，此时S1="计算语言学课程有"；
（6）S1不为空，于是从S1左边取出候选子串W="言学课程有"；
（7）查词表，W不在词表中，将W最左边一个字去掉，得到W="学课程有"；
（8）查词表，W不在词表中，将W最左边一个字去掉，得到W="课程有"；
（9）查词表，W不在词表中，将W最左边一个字去掉，得到W="程有"；
（10）查词表，W不在词表中，将W最左边一个字去掉，得到W="有"，这W是单字，将W加入到S2中，S2=“ /有 /意思”，并将W从S1中去掉，此时S1="计算语言学课程"；
（11）S1不为空，于是从S1左边取出候选子串W="语言学课程"；
（12）查词表，W不在词表中，将W最左边一个字去掉，得到W="言学课程"；
（13）查词表，W不在词表中，将W最左边一个字去掉，得到W="学课程"；
（14）查词表，W不在词表中，将W最左边一个字去掉，得到W="课程"；
（15）查词表，“意思”在词表中，将W加入到S2中，S2=“ 课程/ 有/ 意思/”，并将W从S1中去掉，此时S1="计算语言学"；
（16）S1不为空，于是从S1左边取出候选子串W="计算语言学"；
（17）查词表，“计算语言学”在词表中，将W加入到S2中，S2=“计算语言学/ 课程/ 有/ 意思/”，并将W从S1中去掉，此时S1=""；
（18）S1为空，输出S2作为分词结果，分词过程结束。

posted @ 2018-03-15 10:50 JetHu 阅读(336) 评论(0) 收藏举报

刷新页面返回顶部

JetHu

中文分词之逆向最大匹配算法结合时间位置进行分词

公告