2018 年 3月 15 日随笔档案 - JetHu

2018年3月15日

摘要：之前基于Lucene分词组件探索了按时间位置进行中文分词的算法，中文分词方面采用了最大逆向匹配算法，由于时间信息保存在一个List中，当每个词被切割出来时，其时间信息将会同时按序提取。将分词结果写入倒排索引的词表，时间信息写入到倒排表中的offset属性中。停词表和词汇表都保存在HashSet中。阅读全文

posted @ 2018-03-15 10:50 JetHu 阅读(286) 评论(0) 推荐(0) 编辑

JetHu

公告