摘要: 梯度下降(GD)是最小化风险函数、损失函数的一种常用方法,随机梯度下降和批量梯度下降是两种迭代求解思路。 下面的h(x)是要拟合的函数,J(theta)损失函数,theta是参数,要迭代求解的值,theta求解出来了那最终要拟合的函数h(theta)就出来了。其中m是训练集的记录条数,j是参数的个数 阅读全文
posted @ 2018-02-01 15:42 tbaofang 阅读(184) 评论(0) 推荐(0) 编辑
摘要: 交叉熵(Cross-Entropy) 交叉熵是一个在ML领域经常会被提到的名词。在这篇文章里将对这个概念进行详细的分析。 1.什么是信息量? 假设X是一个离散型随机变量,其取值集合为,概率分布函数为p(x)=Pr(X=x),x∈,我们定义事件X=x0的信息量为: I(x0)=−log(p(x0) 阅读全文
posted @ 2018-02-01 15:14 tbaofang 阅读(372) 评论(0) 推荐(0) 编辑