HanLP里使用DAT存取字典的方法

CoreBiGramTableDictionary.java和CoreDictionary.java结构思路

词典里文件的格式：wordA@wordB frequency

CoreBiGramTableDictionary.java文件用一个TreeMap<(int)wordA, TreeMap<(int)wordB, (int)frequency>>来读取词典。用一个名为pair的int型数组来存储TreeMap<(int)wordB, (int)frequency>。因为一个wordA可能对应有多个wordB，所以用一个名为start的int型数组来记录wordA后面有多少个wordB（start[i] ~~~ start[i+1]）。

wordA和wordB的int数值从DAT的查询中来。

词典里文件的格式：word nature1 frequency1 nature2 frequency2 ......

CoreDictionary.java里用一个Attribute的内部类来保存词典里的每一列中word后的那些概率。

Attribute属性：Nature nature[];

int frequency[];

int totalFrequency;

接着用一个TreeMap<String, Attribute>来存储一列。

怎么build这个map到DAT里？

build(map<String, Attribute>) --> build(Set<String, Attribute>) --> List<String> keyList, List<Attribute> valueList --> build(keyList, valueList) --> DAT里的Attribute[] v := valueList, 最终到了原有的build()。

OK, finished.

posted @ 2016-03-28 21:41 StevenLuke 阅读(216) 评论(0) 收藏举报

刷新页面返回顶部

StevenLuke

HanLP里使用DAT存取字典的方法

CoreBiGramTableDictionary.java和CoreDictionary.java结构思路

公告