一个用 Cumulative Penalty 培训 L1 正规 Log-linear 型号随机梯度下降

  
       Log-Linear 模型（也叫做最大熵模型）是 NLP 领域中使用最为广泛的模型之中的一个。其训练常採用最大似然准则。且为防止过拟合，往往在目标函数中增加（能够产生稀疏性的） L1 正则。但对于这样的带 L1 正则的最大熵模型，直接採用标准的随机梯度下降法（SGD）会出现效率不高和难以真正产生稀疏性等问题。

       本文为阅读作者 Yoshimasa Tsuruoka, Jun’chi Tsujii 和 Sophia Ananiadou 的论文 Stochastic Gradient Descent Training for L1-regularized Log-linear Models with Cumulative Penalty （2009）后整理的读书笔记，文中提出了一种基于累积惩处的 SGD 方法。能够克服上述提到的两个问题。