小熊阁下

导航

2013年5月27日 #

逻辑斯蒂回归模型

摘要: 1、逻辑斯蒂分布(Logistic Distribution) 设 X 是连续随机变量,X 服从逻辑斯蒂分布是指 X 具有下列分布函数和密度函数: 式中,u 是位置参数, y>0 是形状参数( 数学公式编辑不方便,希腊字母不好打呀……o(╯□╰)o )。 参数 y 值越大函数图象越缓。 函数图象如下。 事实上,F(x) 是就是神经网络中激励函数的一种 sigmoid 函数的一个泛化。 这类函数被称为 squash function,其值在 u 附近变化较为剧烈,值域为 [0,1]。2、二项逻辑斯蒂回归模型 二项逻辑斯蒂模型是一种分类模型,由条件概率分布 P(Y|X) 表示,形式化... 阅读全文

posted @ 2013-05-27 11:45 小熊阁下 阅读(1383) 评论(0) 推荐(0) 编辑

2013年5月17日 #

Bregman 散度

摘要: 定义设 F: Ω→R 是一定义在闭凸集Ω 上的连续可微的实值严格凸函数。为关于函数 F 的 Bregman 散度,当且仅当亦可写作其中 L(p) 表示函数 F 在 q 点的切平面方程。Bregman 散度就是一个函数与该函数的线性近似之间的差。性质1. 非负 2. 凸性 是关于其第一个参数 p 的凸函数。3. 线性算子 例子1.2.3. 泛化的 KL(Kullback-Leibler) 散度,在时参考[1]http://en.wikipedia.org/wiki/Bregman_divergence. 阅读全文

posted @ 2013-05-17 12:35 小熊阁下 阅读(940) 评论(0) 推荐(0) 编辑

2013年5月14日 #

KL 散度

摘要: KL散度常用于衡量两个概率分布之间的距离。根据香农定理,对一个概率分布 P(X) 进行最优编码方案编码的平均编码长度为:也就是说,如果对于概率分布 P(X) 的的编码为最优编码方案时: .现假设在同样的字符集上,存在另一个概率分布 Q(X) 。如果用概率分布 P(X) 的最优编码来为符合分布 Q(X) 的字符编码,因为 Q(x) 的最少编码数量应该不是 P(x) 的最优编码方案,除非两个分布一模一样。所以,此时表示这些字符就会比理想情况下多用一些比特数。KL(Kullback-Leibler) Divergence ,就是用来度量这种情况下平均每个字符多用的比特数,因此可用来衡... 阅读全文

posted @ 2013-05-14 10:58 小熊阁下 阅读(658) 评论(0) 推荐(0) 编辑