洞明先生的博客

穷通悟理是极乐
  新随笔  :: 管理
2016/5/8 星期日 12:36
 
  desc
目标函数选择 基尼系数,熵(条件熵,交叉熵),分类误差率 都可以作为 目标函数
用凸函数的方法证明 KL距离一定大于0 
D(p||q) = Σplog(p/q) = -Σplog(q/p) 
因为 -log 是凸函数,且Σp=1,所以
上式 >= -log(Σp·q/p) = -log(Σq) = -log(1) = 0
所以相对熵(KL散度)一定是大于零的
古典概率
 
特点就是:
都要将 全部的 情况求出来,作为分母
这是 生日悖论 的数学模型 与 抽屉原理 的;类似
关于描述贝叶斯派的思路
二项分布的产生,基于两点分布
应用
 
泊松分布的来源

对于 麦克劳林展开式 等号两边 同时除以 e^-x
那么 每一项 都是 泊松分布的密度函数的一个取值
所以 泊松分布密度函数累积和是1
   
泊松分布
如何理解泊松分布
拿例子当成定义:就是 单位之间内,平均来的人数为 m,那么想问的是:
那么 这单位时间内 来的人数分别为 1,2,3, 等等 各个的概率?
平均来m个人,那么 其实P(X=m) 的 也不是最大的,即为:
也就是说 在已知 期望均值的情况下,问 在各个数值上的 概率
 
# 条件是 每次发生 不影响下一次发生,即相互独立
sigmoid 函数在求导上的特点 f(x)' = f(x)·(1 - f(x))
无人驾驶汽车 
是地区相关的,即 要 input,这个城市 各个地段的信息
不能超过这个区域
比如 北京的无人驾驶车 就不能去 上海 
ml 可以以性能指标作为 目标  比如: 比赛中击败对手的百分比
LR 不适合曲线拟合
LR 应该是 一个分类的,别想着他来做回归了
因为 它 使用了 sigmoid 非线性函数,只不过由于输出是概率,所以它能用于排序,
但并不代表 它能 用于 曲线拟合
曲线拟合
多项式回归
线性回归
回归树
回归神经网络
无监督学习的类别 聚类,关联规则 
几何概率
A 在 0~0.8 之间,B在 0~0.2 之间,均匀分布,各自生成一个数,问 B>A 的概率
建立 (X, Y) 坐标,从而能用 二维面积来表示关系
如何证明
lim(sinx/x)=1
借助这个图
我们有:sinx < x < tanx
数学处理:两边处理 sinx
1 < x/sinx < 1/cosx
cosx < sinx/x <1
lim cosx = 1
所以 lim sinx/x = 1
作用
寒老师说
1. 如果不看原理与公式,那么只能做 baseline
2. 如果你胆敢说 自己懂一个算法 一定是 问这个损失函数
3. 感觉自己似乎 是在开始积累 证明了
一遇到 证明,就想。。。积累了