LR的深入理解资料汇集

今天面试被问到LR的算法的梯度和正则化项，自己不太理解，所以找了一些相关资料，发现LR的算法在梯度下降，正则化和sigmoid函数方面都有很深的研究，期间也发现一些比较好的资料，记录一下。

这篇文章是论文的翻译和理解，帮助看论文。
https://blog.csdn.net/qq_32742009/article/details/81746955

主要结论：二项分布的最大熵就是二项指数的最大似然估计。
证明方法：假设x服务二项指数分布，求解二项分布的参数，最后x被推出服从二项指数分布，整个推导过程是一个闭环。

疑点是：是为什么要假设x服务二项指数分布呢？（备注：二项指数分布也就是逻辑斯蒂分布）
算法一般是假设正太分布，为什么不直接假设是正太分布呢？

这篇文章讲解了简单截断，梯度截断和L1正则化之间的关系
https://www.cnblogs.com/yymn/p/4686999.html
梯度截断的lambda=theta时，梯度截断就等于简单截断。
梯度截断的lambda=正无穷且k=1，梯度截断就等于L1正则化。

posted @ 2019-08-26 20:17 小小小的程序猿阅读(545) 评论(0) 编辑收藏举报

刷新页面返回顶部

小小小的程序媛