06 2014 档案

摘要:Martin A. Zinkevich 等人(Yahoo!Lab)合作的论文 Parallelized Stochastic Gradient Descent 中给出了一种适合于 MapReduce 的并行随机梯度下降法,并给出了相应的收敛性分析。这里忽略理论部分,根据自己的理解给出文中所提并行随机梯度下降法的描述。 阅读全文
posted @ 2014-06-23 19:53 peghoty 阅读(1951) 评论(0) 推荐(0) 编辑
摘要:Log-Linear 模型(也叫做最大熵模型)是 NLP 领域中使用最为广泛的模型之一,其训练常采用最大似然准则,且为防止过拟合,往往在目标函数中加入(可以产生稀疏性的) L1 正则。但对于这种带 L1 正则的最大熵模型,直接采用标准的随机梯度下降法(SGD)会出现效率不高和难以真正产生稀疏性... 阅读全文
posted @ 2014-06-11 14:06 peghoty 阅读(543) 评论(0) 推荐(0) 编辑