会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
JetHu
博客园
首页
新随笔
联系
订阅
管理
2018年3月15日
中文分词之逆向最大匹配算法结合时间位置进行分词
摘要: 之前基于Lucene分词组件探索了按时间位置进行中文分词的算法,中文分词方面采用了最大逆向匹配算法,由于时间信息保存在一个List中,当每个词被切割出来时,其时间信息将会同时按序提取。将分词结果写入倒排索引的词表,时间信息写入到倒排表中的offset属性中。停词表和词汇表都保存在HashSet中。
阅读全文
posted @ 2018-03-15 10:50 JetHu
阅读(286)
评论(0)
推荐(0)
编辑
公告