cs229GeneralizedLinearModels

最近在看cs229的视频，为了怕后面忘记，感觉现在先记下来比较好。知识这个东西，长时间不看真的容易忘记。

主要想记一下广义线性模型这块知识。Generalized Linear Models

一、指数族（The exponential family）。

　　首先先了解一下指数族这个概念：如果一类分布可以写成如下形式，则它可以叫做指数族分布。

　　 η被称为分布的自然参数（也称为规范参数）；

　　T(y)是充分统计量（对于我们所考虑的分布，通常情况下有T(y)=y）；（后面听老师讲解，充分统计量就是说包含样本的所有信息，有了充分统计量就可以把样本扔掉，例如正态分布的期望值和方差，合起来是一个充分统计量，单个的不是）

　　a(η)被称为对数分割函数；

　　固定T，a和b，我们可以定义一族以η为参数的分布。也可以这么理解（1）通过改变T,a,b的值，我们可以得到不同的分布，例如Bernoulli分布和Gaussian分布。（2）在固定T，a,b之后，改变η值，就可以得到不同均值的Bernoulli分布和Gaussian分布。

　　Bernoulli分布和Gaussian分布都是指数族分布的特例，接下来我们将Bernoulli分布和Gaussian分布都转换成指数族分布的形式。

　　1 Bernoulli分布

　　Bernoulli(φ) y ∈ {0, 1}, p(y = 1; φ) = φ; p(y = 0; φ) = 1 - φ.

　　伯努利分布的概率分布函数如下：

　　

　　指数族分布：

　　通过以上两个式子进行对比，我们可以得到：

　　b(y) = 1

　　T(y) = y

　　a(η) = - log(1 - φ)

　　η = log(φ/(1 - φ))

　　2 Gaussian 分布（因为在此处没有影响，所以令 =1）。其实我们可以简单的把高斯分布理解成正态函数。

　　高斯分布的概率表达函数：

　　

　　通过对比指数族分布函数，得到

　　

　　

　　

　　

二、构建广义线性模型Constructing GLMs

　　首先需要知道三个假设：（可能又要有疑问了，为何要定义这三个假设，他们有什么作用？我们可以把这三个假设理解为我们的设计选择，为了方便后面的过程）

　　（1） y | x; θ ~ ExponentialFamily(η).

　　（2）这个地方的E指的是期望的意思

　　（3） η 和 x是线性相关的

　　1 Ordinary Least Squares普通最小二乘（属于线性回归）

　　

　　上面四个等式，分别是由assumption 2 ，Gaussian ，assumption 1 ，assumption 3推导出来的

　　2 Logistic Regression

　　Bernoulli(φ) y ∈ {0, 1}, p(y = 1; φ) = φ; p(y = 0; φ) = 1 - φ.

　　

　　上面四个等式分别由assumption ，2 Bernoulli ，η = log(φ/(1 - φ))（前面得到）， assumption 3推导出来的

　　3 Softmax Regression

　　比较难的就是这个多分类的情况，在多分类情况下，y ∈ {1 2, . . . , k}.要在k个可能的结果上参数化多项式，可以使用k个参数φ1，，φk指定每个结果的概率。同时我们需要知道所有概率之和为1.

并且

指示器函数如该等式所示，中括号里面若是真命题，该值就等于1，否就等于0

此时的T(y)和前面不同，前面T(y)=y,这里T(y)是一个k-1维的向量，而不是一个实数，定义T(y)如下形式：（为什么要定义成这个样子，我们可以简单理解为这样定义是为了后面更好的构建广义线性模型）

接下来我们就可以得出，等式左边代表T(y)的第i个元素，然后进一步得到

概率分布函数

为了更加直观，我将第五个等式转换成如下图形式：

然后可以推出：

之后：

学习算法输出p(y = i|x; θ)，i = 1, . . . , k

最后是对数似然函数：

假设有m个训练样本

利用最大似然法去学习模型参数θ

这一部分大致就完了，后面写的不太能理解，因为我自己理解的也不是很透彻。这些公式是可以一步步推出来的，但是由于自己理解有限，写的不是很明白。再接再厉，加油！

posted @ 2020-07-20 19:34 清心lh 阅读(125) 评论(0) 编辑收藏举报

刷新页面返回顶部