12 2014 档案

摘要:熵 熵是表示随机变量不确定性的度量,设X是一个取有限个值的离散随机变量,其概率分布为 则随机变量X的熵定义为 若对数以2为底或以e为底,这时熵的单位分别称为比特或纳特。熵只依赖与X的分布,而与X的取值无关,所以也可将X的熵记作。熵越大,随机变量的不确定性越大。 若一个随机变量只有两个值,那么当X的分别为为P(x1)=P(x2)=0.5的时候,熵最大,变量也最不确定。 条件熵 设有随机变量(X... 阅读全文
posted @ 2014-12-30 22:38 happy_lion 阅读(5966) 评论(1) 推荐(0) 编辑
摘要:神经网络最基本的知识可以参考神经网络基本知识,基本的东西说的很好了,然后这里讲一下神经网络中的参数的求解方法。注意前一次的各单元不需要与后一层的偏置节点连线,因为偏置节点不需要有输入也不需要sigmoid函数得到激活值,或者认为激活值始终是1.一些变量解释:标上“”的圆圈被称为偏置节点,也就是截距项... 阅读全文
posted @ 2014-12-30 14:09 happy_lion 阅读(15213) 评论(0) 推荐(2) 编辑
摘要:zaish上一节讲了线性回归中L2范数的应用,这里继续logistic回归L2范数的应用。 先说一下问题:有一堆二维数据点,这些点的标记有的是1,有的是0.我们的任务就是制作一个分界面区分出来这些点。如图(标记是1的样本用+表示,0的用红点表示): 这其实是一个二分类问题,然后我们就想到了logistic回归模型。这是一个概率模型, 即预测在x已知时,标记为1的概率:那么标记为0的概率为:。 那... 阅读全文
posted @ 2014-12-27 14:34 happy_lion 阅读(3537) 评论(0) 推荐(0) 编辑
摘要:cost function 加一个正则项的原因是防止产生过拟合现象。正则项有L1,L2 等范数,我看过讲的最好的是这个博客上的:机器学习中的范数规则化之(一)L0、L1与L2范数。看完应该就答题明白了。 这里我们说一下线性回归中L2范数的应用。假设我们的与各维度变量(这里每一个样本只有一维x)关系的模型是:,表示是模型根据各维度变量预测的。 注意这个模型表明我们这里假设与各维度变量的关系不是... 阅读全文
posted @ 2014-12-24 17:31 happy_lion 阅读(989) 评论(0) 推荐(0) 编辑
摘要:1 梯度下降法我们使用梯度下降法是为了求目标函数最小值f(X)对应的X,那么我们怎么求最小值点x呢?注意我们的X不一定是一维的,可以是多维的,是一个向量。我们先把f(x)进行泰勒展开:这里的α是学习速率,是个标量,代表X变化的幅度;d表示的是单位步长,是一个矢量,有方向,单位长度为1,代表X变化的方... 阅读全文
posted @ 2014-12-18 20:32 happy_lion 阅读(21482) 评论(0) 推荐(2) 编辑
摘要:第一节中说了,logistic 回归和线性回归的区别是:线性回归是根据样本X各个维度的Xi的线性叠加(线性叠加的权重系数wi就是模型的参数)来得到预测值的Y,然后最小化所有的样本预测值Y与真实值y'的误差来求得模型参数。我们看到这里的模型的值Y是样本X各个维度的Xi的线性叠加,是线性的。Y=WX (... 阅读全文
posted @ 2014-12-17 17:33 happy_lion 阅读(49437) 评论(1) 推荐(6) 编辑
摘要:继续学习http://www.cnblogs.com/tornadomeet/archive/2013/03/15/2962116.html,上一节课学习速率是固定的,而这里我们的目的是找到一个比较好的学习速率。我们主要是观察 不同的学习速率对应的不同的损失值与迭代次数之间的函数曲线是怎么样的,找到... 阅读全文
posted @ 2014-12-15 12:41 happy_lion 阅读(2242) 评论(0) 推荐(0) 编辑
摘要:现在机器学习算法在分类、回归、数据挖掘等问题上运用的十分广泛,对于初学者来说,可能一听到'算法'或其他的专属名词都感觉高深莫测,以致很多人望而却步,这让很多人在处理很多问题上失去了一个很有用的工具。机器学习的算法并没有那么高深,这里我就用最通俗的语言来解释算法的表达的意义,并且很多人对程序的实现这一... 阅读全文
posted @ 2014-12-13 16:43 happy_lion 阅读(1552) 评论(0) 推荐(0) 编辑