斯坦福公开课5:生成学习

北京理工大学计算机专业2016级硕士在读,方向:Machine Learning,NLP,DM
2017/3/21 9:08:46

本讲大纲:

1.生成学习算法(Generative learning algorithm) 
2.高斯判别分析(GDA,Gaussian Discriminant Analysis) 
3.朴素贝叶斯(Naive Bayes) 
4.拉普拉斯平滑(Laplace smoothing)


生成学习

判别学习算法(discriminative learning algorithm):直接学习p(y|x)(比如说logistic回归)或者说是从输入直接映射到{0,1}.

生成学习算法(generative learning algorithm):p(x|y)p(y)进行建模。(p(y)不是很重要)

简单的来说,判别学习算法的模型是通过一条分隔线把两种类别区分开,而生成学习算法是对两种可能的结果分别进行建模,然后分别和输入进行比对,计算出相应的概率。

比如说良性肿瘤和恶性肿瘤的问题,对良性肿瘤建立model1(y=0),对恶性肿瘤建立model2(y=1),p(x|y=0)表示是良性肿瘤的概率,p(x|y=1)表示是恶性肿瘤的概率.

根据贝叶斯公式(Bayes rule)推导出y在给定x的概率为:这里写图片描述

另见《生成学习与判别学习的区别》一文

高斯判别分析

GDA是要学习的第一个生成学习算法.

GDA的两个假设:

  • 假设输入特征x∈Rn,并且是连续值;
  • p(x|y)是多维正态分布(multivariate normal distribution);

 

 

1、多维正态分布
若x服从多维正态分布(也叫多维高斯分布),均值向(mean vector)这里写图片描述,协方差矩阵(convariance matrix)这里写图片描述,写成x~这里写图片描述, 其概率密度函数为: 
这里写图片描述 
这里写图片描述表示行列式(determinant).

 

均值:这里写图片描述 
协方差Cov(Z)=这里写图片描述=这里写图片描述 = ∑

 

高斯分布的一些例子: 
这里写图片描述 
左图均值为零(2*1的零向量),协方差矩阵为单位矩阵I(2*2)(成为标准正态分布). 
中图协方差矩阵为0.6I, 
右图协方差矩阵为2I

这里写图片描述 
均值为0,方差分别为: 
这里写图片描述

 

可见增加矩阵对角元素的值,即变量间增加相关性,高斯曲面会沿z1=z2(两个水平轴)方向趋于扁平。其水平面投影图如下:

即增加∑对角线的元素,图形会沿45°角,偏转成一个椭圆形状。

 

若∑对角线元素为负,图形如下:

∑分别为:

 

不同μ的图形如下:

μ分别为:

μ决定分布曲线中心的位置。

 

 

 

2、高斯判别分析模型 
这里写图片描述 
写出概率分布: 
这里写图片描述

模型的参数为φ,μ0,μ1,∑,对数似然性为: (生成学习考虑的是joint likelihood 联合似然,判别学习算法考虑conditional likelihood)
这里写图片描述

求出最大似然估计为: (详细推导见http://www.cnblogs.com/jcchen1987/p/4424436.html  Σ的答案有误

这里写图片描述

 

φ:训练样本中标签为1的样本所占的比例

μ0:分母为标签为0的样本数,分子是对标签为0的样本的x(i)求和,结合起来就是对对标签为0的样本的x(i)求均值,与高斯分布参数μ为均值的意义相符

μ1:与μ0同理,标签改为1

 

 

结果如图所示: 
这里写图片描述

 

Predict:

 

预测结果应该是给定x的情况下最可能的y,等式左边的运算符argmax表示计算p(y|x)最大时的y值,预测公式如下:

因为p(x)独立于y,所以可以忽略p(x)。

 

如果p(y)为均匀分布,即每种类型的概率都相同,那么也可以忽略p(y),要求的就是使p(x|y)最大的那个y。不过这种情况并不常见。

 

3、GDA和logistic回归的联系
P(y=1|x)看作x的函数,则有:
这里写图片描述
其中θφ,∑,μ1,μ2的函数,这正是logistic回归的形式。
4、使用生成学习算法的优缺点

推论1:

x|y 服从高斯分布  =>  p(y=1|x)是logistic函数

该推论在反方向不成立。

 

 

推论2:

x|y=1 ~ Poisson(λ1),x|y=0 ~ Poisson(λ0)  =>  p(y=1|x)是logistic函数

 

x|y=1 ~ Poisson(λ1)表示x|y=1服从参数为λ1泊松分布

 

推论3:

x|y=1 ~ ExpFamily(η1),x|y=0 ~ ExpFamily (η0)  =>  p(y=1|x)是logistic函数

 

推论2的推广,即x|y的分布属于指数分布族,均可推出结论。显示了logistic回归在建模假设选择方面的鲁棒性


优点:

 

  • 推论1反方向不成立,因为x|y服从高斯分布这个假设更强,GDA模型做出了一个更强的假设,所以,x|y服从或近似服从高斯分布,那么GDA会比logistic回归更好,因为它利用了更多关于数据的信息,即算法知道数据服从高斯分布。

 

 

缺点:

 

  • 如果不确定x|y的分布情况,那么判别算法logistic回归性能更好。例如,预先假设数据服从高斯分布,但是实际上数据服从泊松分布,根据推论2logistic回归仍能获得不错的效果。
  • 生成学习算法比判决学习算法需要更少的数据。如GDA的假设较强,所以用较少的数据能拟合出不错的模型。而logistic回归的假设较弱,对模型的假设更为健壮,拟合数据需要更多的样本。

 

 

朴素贝叶斯

学习的第二个生成模型方法

引例:垃圾邮件分类

实现一个垃圾邮件分类器,以邮件输入流作为输入,确定邮件是否为垃圾邮件。输出y{0,1}1为垃圾邮件,0为非垃圾邮件。

首先,要将邮件文本表示为一个输入向量x,设已知一个含有n个词的字典,那么向量x的第i个元素{0,1}表示字典中的第i个词是否出现在邮件中,x示例如下:

要对p(x|y)建模,x是一个n维的{0,1}向量,假设n=50000,那么x2^50000种可能的值,一种方法是用多项式分布进行建模(伯努利分布对01建模,多项式分布对k个结果建模),这样就需要2^50000-1个参数,可见参数过多,下面介绍朴素贝叶斯的方法。


假设xi在给定y的时候是条件独立的,则x在给定y下的概率可简化为:(第二个=用到了朴素贝叶斯假设) 假设虽然有缺陷,但是实际效果很好。

 

模型参数包括:

Φi|y=1 = p(xi=1|y=1)

Φi|y=0 = p(xi=1|y=0)

Φy = p(y=1)

 

联合似然性:

 

求得参数结果:

 

 

Φi|y=1的分子为标记为1的邮件中出现词j的邮件数目和,分母为垃圾邮件数,总体意义就是训练集中出现词j的垃圾邮件在垃圾邮件中的比例。

Φi|y=0就是出现词j的非垃圾邮件在非垃圾邮件中的比例。

Φy就是垃圾邮件在所有邮件中的比例。

求出上述参数,就知道了p(x|y)p(y),用伯努利分布对p(y)建模,用上式中p(xi|y)的乘积对p(x|y)建模,通过贝叶斯公式就可求得p(y|x)

可以得到:

这里写图片描述

 

朴素贝叶斯的问题: 
假设在一封邮件中出现了一个以前邮件从来没有出现的词,在词典的位置是35000,那么得出的最大似然估计为: 

这里写图片描述 
也即使说,在训练样本的垃圾邮件和非垃圾邮件中都没有见过的词,模型认为这个词在任何一封邮件出现的概率为0. 
假设说这封邮件是垃圾邮件的概率比较高,那么 
这里写图片描述 
模型失灵.

 

在统计上来说,在你有限的训练集中没有见过就认为概率是0是不科学的.

 

Laplace平滑

根据极大似然估计,p(y=1) = #”1”s / (#”0”s + #”1”s),即y为1的概率是样本中1的数目在所有样本中的比例。Laplace平滑就是将分子分母的每一项都加1,,即:

p(y=1) = (#”1”s+1)  / (#”0”s+1 + #”1”s+1)

Generally:yk中可能的值


 

对于朴素贝叶斯,得到的结果为:

                         

 

代码实践

GDA代码实例
训练数据:鸢尾花数据
# -*- coding: utf-8 -*-
from __future__ import division
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
def GDA( X, y ):
    m , m0 , m1 = len(y) , len(y[y==0]) , len(y[y==1])
    phi = m0 / m
    u0 = np.sum( X[y==0] , axis=0 ) / m0
    u1 = np.sum( X[y==1] , axis=0 ) / m1
    sigma = np.zeros( (len(X[0]),len(X[0]) ) ) 
    for x , y in zip( X , y ):
        if y == 0:
            sigma += np.dot( np.transpose([x - u0]) , (x - u0).reshape(1,2) )
        else:
            sigma += np.dot( np.transpose([x - u1]) , (x - u1).reshape(1,2) )
    sigma /= m  
    return ( phi , u0 , u1 , sigma )
def predict( x , phi , u0 , u1 , sigma ):
    inv = np.linalg.inv(sigma) 
    y_hat = []
    for case in x:
        p0 = np.dot( np.dot((case - u0) , inv ) , (case - u0).T ) * (1 - phi)
        p1 = np.dot( np.dot((case - u1) , inv ) , (case - u1).T ) * phi
        y_hat.append( 0 if p0 < p1 else 1 )
    return np.array(y_hat)
    
df = np.loadtxt(r'C:\Users\LoveDMR\Desktop\8.iris.data', delimiter=',' , converters = { 4: lambda t : {'Iris-setosa':0,'Iris-versicolor':1,'Iris-virginica':2}[t] } );
df = df[df[:,4] != 2]  # 为了方便学习 ,只关心二分类问题
#手工特征选择 2个(方便可视化  0-3)
feature = ( 0 , 1 )
C1 = df[df[:,4] == 0]
C2 = df[df[:,4] == 1]
X , y = np.split(df,(4,), axis=1)
X = X[:,feature[0]:feature[1]+1]  # 只取两个特征
y = y[:,0]
phi , u0 , u1 , sigma = GDA( X, y )
# 特征分布情况
plt.figure()
x1_min , x1_max = X[:,0].min() , X[:,0].max()
x2_min , x2_max = X[:,1].min() , X[:,1].max()
t1 = np.linspace(x1_min,x1_max , 500)
t2 = np.linspace(x2_min,x2_max , 500)
x1 , x2 = np.meshgrid( t1 , t2 )
x_test = np.stack((x1.flat,x2.flat),axis=1)
y_hat = predict( x_test , phi , u0 , u1 , sigma )
y_hat = y_hat.reshape(x1.shape)
cm_light = mpl.colors.ListedColormap(['#77E0A0', '#FF8080'])
plt.pcolormesh(x1,x2,y_hat,cmap=cm_light)
plt.plot(C1[:,feature[0]],C1[:,feature[1]] , 'bv')
plt.plot(C2[:,feature[0]],C2[:,feature[1]],'g*')
plt.xlim(x1_min, x1_max)
plt.ylim(x2_min, x2_max)
plt.tight_layout()
plt.show()

  

特征:花萼宽度+花萼长度(左图) |  花瓣宽度+花瓣长度(右图)
figure_1.pngfigure_1-1.png

 

 

 

 

 


补充:协方差计算公式与意义

 

http://blog.csdn.net/beechina/article/details/51074750

补充:样本方差公式中为什么要除以(n-1)而不是n呢?

样本方差与样本均值,都是随机变量,都有自己的分布,也都可能有自己的期望与方差。取分母n-1,可使样本方差的期望等于总体方差,即这种定义的样本方差是总体方差的无偏估计。 简单理解,因为算方差用到了均值,所以自由度就少了1,自然就是除以(n-1)了。
再不能理解的话,形象一点,对于样本方差来说,假如从总体中只取一个样本,即n=1,那么样本方差公式的分子分母都为0,方差完全不确定。这个好理解,因为样本方差是用来估计总体中个体之间的变化大小,只拿到一个个体,当然完全看不出变化大小。反之,如果公式的分母不是n-1而是n,计算出的方差就是0——这是不合理的,因为不能只看到一个个体就断定总体的个体之间变化大小为0。

知乎 https://www.zhihu.com/question/20099757

补充:贝叶斯网络

 

 

 

posted @ 2017-03-25 23:27  会飞的胖子  阅读(289)  评论(0编辑  收藏  举报