洞明先生的博客

穷通悟理是极乐
  新随笔  :: 管理

概率论基础_七月算法4月机器学习班第2次课程笔记

Posted on 2016-05-13 10:58  洞明  阅读(1094)  评论(0编辑  收藏  举报
2016/5/4 星期三 14:19
 
  定义式 判别式 必要条件 关系 韦恩图
相互独立
# 概率角度的定义
概率的定义
P(XY) = P(X)·P(Y)
 
from 百度百科
即:有一个为不可能事件也是相互独立
P(Y|X) = P(Y)
E(XY)
= E(X)·E(Y)
Var(X+Y)
= Var(X) + Var(Y)
cov(X,Y) = 0 
#即 E(XY)- E(X)·E(Y)
不一定互斥
# 互不影响,没有斥的作用
 
一定不相关
不好表示
互斥
# 集合角度的定义
集合定义:
A∩B = 0
 
from 百度百科
P(X+Y) = P(X) + P(Y)
且 P(X) + P(Y) <= 1
 
P(XY) = 0
 
一定不相互独立
# 因为两者相互影响
对立 特殊的 互斥
P(X+Y) = P(X) + P(Y)
且 P(X) + P(Y) = 1
   
协方差
定义在两个随机变量之间
COV(X, Y)
= E(X-E(X))·E(Y-E(Y))
# 这个E 本身带有样本遍历的操作
COV(X, Y)= E(XY) - E(X)E(Y)      
相关系数
COV(X,Y)÷
sqrt(Var(X)·Var(Y))
观点:
相关系数是标准化归一化的协方差
       
不相关 COV(X, Y) = 0
E(XY) = E(X)·E(Y)
Var(X+Y) = Var(X) + Var(Y)
# 它的证明用到了E(XY)- E(X)·E(Y)
 
独立一定不相关
不相关不一定独立
 
 
 
 
       
凸函数  
     
 
 
 
 
  desc
协方差的应用
建立特征间的协方差矩阵
特征维度间的 协方差矩阵分析 是特征筛选的最常用的方法
使用方法:
剔除 协方差矩阵中 绝对值最大的item
不论正相关还是 负相关,都是相关
特征工程包括
1. transforming 相乘等等  
2. selection筛选
证明:
E(XY) = E(X)·E(Y)
证明:
E(XY) = E(X)·E(Y)
Σ_xy(z_xy·P(XY))
# 其中 z_xy = X·Y, P(XY) = P(X)·P(Y) 带入得到
= Σ_xy(X·Y·P(X)·P(Y))
= Σ_xΣ_y(Y·P(Y)·X·P(X))
= Σ_xE(Y)X·P(X))
= E(Y)(Σ_xX·P(X)))
= E(Y)E(X) 
证明:
Var(X+Y) = Var(X) + Var(Y) 
Var(X+Y)
= E((X+Y)(X+Y)) - E(X+Y)E(X+Y)
# 因为是 E(X+Y) = E(X) + E(Y) 无条件成立
= E((X+Y)(X+Y)) - (E(X)+E(Y))(E(X)+E(Y))
= E(X2+Y2+2XY) - (E(X)+E(Y))(E(X)+E(Y))
= E(X2)+E(Y2) + 2E(XY) - E(X)E(X) - E(Y)E(Y) - 2E(X)E(Y)
= E(X2) - E(X)E(X) + +E(Y2)- E(Y)E(Y) + 2E(XY) - 2E(X)E(Y)
= Var(X) + Var(Y) + 2E(XY) - 2E(X)E(Y)
也就是应用了 第一条规律即:
如果独立那么E(XY) = E(X)·E(Y)
上式子可以化为:
Var(X) + Var(Y) 
相关系数矩阵 有协方差矩阵就有 相关系数矩阵
why 不相关 不等价于相互独立
因为 使用皮尔逊系数的不相关,仅仅是非线性相关
如果 X = K·Y,那么:ρ(X,Y) = 1
即:不线性相关 可能有其它的 函数相关,比如:核函数 就是高阶相关
皮尔逊相关系数 其实就是 去均值的cos相似度
独立同分布的理解
同分布的概念是指 有相同的期望和方差,独立的概念是指P(XY)=P(X)P(Y)
即  X1,X2,X3,……,Xn 独立同分布,那么相当于给你一些工具tool,即:
E(Xi) = μ
Var(Xi) = Σ2
------------------------------------
相互独立表示可以有以下tool:
P(Xi·Xj) = P(Xi)·P(Xj)
P(Xi|Xj) = P(Xi)
COV(Xi, Xj) = 0
Var(Xi + Xj) = Var(Xi) + Var(Xj)
E(Xi·Xj) = E(Xi)·E(Xj)
 
如何理解 切比雪夫不等式
落在期望邻域的概率计算
 
公式推导过程 落在期望邻域的概率计算————>切比雪夫不等式——(替换)——>大数定律——(替换)——>伯努利定律(即频率替换法)
猜数 就是取 概率密度的取峰值
关于数理统计的几个指标
这几个 指标 都是你要用到的:
2 阶原点距
1 阶中心距
变异系数
偏度
峰度
个数
样本均值
样本方差 
中心极限定理的观点
许多因素的独立影响的综合反映往往接近正态分布
比如观察不到的微小误差的累积,即 随机变量的 均值,误差的总和等等 服从的是 正态分布
乘性误差是需要取log,后变为加,才是正态分布 的
关于极大似然估计函数
Xi 因为是样本,所以可以看成是固定的,而Θ是变量
所以对 Θ 求导
 
一个名词概念 基函数 与 核函数
基函数 
基函数的作用类似于 基向量,
基向量是集合空间的基
基函数是函数空间的基
常见的基函数类型有:
多项式基
傅里叶基
拉格朗日基
 
比如:泰勒展开式,傅里叶变换 可能就是在用一些基
refer
 
例如:
{1, t, t2} as a basis, 由这个基张开的函数空间为:a·1+b·t+c·t2
refer
SVM的一个说法
低维空间线性不可分的模式通过非线性  映射  到高维特征空间则可能实现线性可分
这里如果说是 映射,那么 是让你 正门外汉 所看不懂无法想象的,其实 还是看 那个北大的演讲
确切的说 就是对 离线的数据 进行扭曲,是的可以线性可分
 
分类只能线性可分,如果线性不可分,那么扭曲空间然后 再线性可分