ansj构造最短路径

一、前言

上节介绍了ansj的原子切分和全切分。切分完成之后，就要构建最短路径，得到分词结果。

以“商品和服务”为例，调用ansj的标准分词：

String str = "商品和服务" ;
Result result = ToAnalysis.parse(str);
System.out.println(result.getTerms());

先不管数字发现、人名识别、用户自定义词典的识别，暂时只考虑ToAnalysis类里面，构建最短路径的这行代码：

graph.walkPath();

上面这行代码执行前，已完成了全切分，构建了如下的有向无环图：

事实上，此时没有“务”这个节点

如上图所示，terms[4] = null。

不过这也没关系，后面给节点打分时，会填充这个null，这段代码位于Graph.merger(Term fromTerm, int to, Map<String, Double> relationMap)：

char c = chars[to];
TermNatures tn = DATDictionary.getItem(c).termNatures;
if (tn == null || tn == TermNatures.NULL) {
tn = TermNatures.NULL;
}
terms[to] = new Term(String.valueOf(c), to, tn);

也就是说，给“和服”的后继节点打分时，发现其后继节点为null，那么就实例化一个Term，填充在terms[to]的位置。

二、理论基础

两个节点之间分之计算的代码位于MathUtil.compuScore(Term from, Term to, Map<String, Double> relationMap)

其中核心代码只有一行：

double value = -Math.log(dSmoothingPara * frequency / (MAX_FREQUENCE + 80000) + (1 - dSmoothingPara) * ((1 - dTemp) * nTwoWordsFreq / frequency + dTemp));

我们了探讨一下这行代码的理论基础。

首先，ansj使用二元语法模型（Bigram）进行分词。Bigram模型对应于一阶Markov假设，词只与其前面一个词相关，其对应的分词模型：

$arg\,max\prod_{m}^{i=1}P({w}_{i}|{w}_{i-1})\, =\,arg\,min-\sum_{m}^{i=1}logP({w}_{i}|{w}_{i-1})$

该等式将求解最大联合概率的问题转化为了求解有向无环图最短路径问题。

其中，数学符号arg表示使目标函数取最小值时的变量值。这里是指求解条件概率之积$\prod_{m}^{i=1}P({w}_{i}|{w}_{i-1})$取最大值时的分词结果。

对条件概率$P({w}_{i}|{w}_{i-1})$做如下的平滑处理：

\begin{aligned}
- \log P(w_{i} | w_{i-1}) & \approx - \log \left[ aP(w_{i-1}) + (1-a) P(w_{i}|w_{i-1}) \right] \\
& \approx - \log \left[ a\frac{f(w_i)}{N} + (1-a) \left( \frac{(1-\lambda)f(w_{i-1},w_i)}{f(w_{i-1})} + \lambda \right) \right]
\end{aligned}

其中，a = 0.1为平滑因子，N = 207997为训练语料中的总次数，$\lambda \,=\,\frac{1}{N}$。

第一个约等式是采用线性插值法（Linear Interpolation）（可参考自然语言处理：盘点一下数据平滑算法）进行平滑处理。

第二个约等式，我还没搞清楚是什么处理。