Jizhiyuan - 博客园

Machine Learning --- GMM & QDA\LDA & EM algorithm

摘要：一、单高斯模型GSM（多元正态分布MVN）当特征为2D时：马氏距离=翻转坐标系下的欧式距离：高斯分布证明（极大熵）： [例]拉格朗日乘子法对q求导：服从指数分布族：证毕。二、高斯混合模型GMM（多个单高斯的线性叠加，可逼近任意分布，每个高斯是一个聚类中心）目标求三个参数： (1)当样本类别已知时（简单问题）：经验公式求... 阅读全文

posted @ 2013-11-16 22:53 Jizhiyuan 阅读(1730) 评论(0) 推荐(0) 编辑

Machine Learning --- Structure risk & VC dimension

摘要：一、结构风险结构风险=经验风险+置信风险经验风险=分类器的训练误差置信风险=分类器的测试误差其中置信风险由样本数量N与分类函数的VC维h决定。样本数量越多模型越接近真实分布，置信风险越小；VC维越大，模型越复杂推广性差，置信风险越大。结构风险公式如下：二、VC维定义：若h个样本能被分类函数按所有可能的2h种形式分开，则称分类函数能把h个样本打散。分类函数的VC为就是它能打散的最大样本数h。若分类边界为线性，则h=D+1，D为特征维数。[例]2维平面内只能找到3个点被直线打散分成两堆。设A、B、C表示三个点，+1，-1表示堆的类别。当h=3时，有8种打散方式：当h=4时，只有14种打散方式（应该阅读全文

posted @ 2013-11-16 16:57 Jizhiyuan 阅读(363) 评论(0) 推荐(0) 编辑

Machine Learning --- Generative model Vs Discriminative model

摘要：阅读全文

posted @ 2013-11-16 14:31 Jizhiyuan 阅读(268) 评论(0) 推荐(0) 编辑

形式语言与自动机 --- 上下文无关语言 & 下推自动机

摘要：一、下推自动机(pushdown automata)下推自动机是一个带栈的自动机，用于信息暂存和比对。非确定型下推自动机由一个七元组定义：[例]针对语言 L={w∈{a,b}*:na(w)=nb(w)}构造一个npda。在处理baab过程中，该npda执行的迁移如下：二、下推自动机与上下文无关语言(a)证明：对于任何的上下文无关语言L，存在一个npda M使得L=L(M)。npda可表示为：其转移函数包括：，目标是证明：若，则：假设文法化为格里巴范式，根据定义和上式得：设w=a1a2…an，则：，根据规则得：则存在使得：如此重复，设得到：这使得任一时刻栈的内容（z除外）与句型中没有匹配的部分阅读全文

posted @ 2013-11-15 14:56 Jizhiyuan 阅读(3845) 评论(0) 推荐(1) 编辑

Data Mining --- Backpropagation Neural Network

摘要：一、BP神经网络BP神经网络模型如下，其目的是根据实际的输入与输出数据计算模型的权系数（误差反传），BP神经网络结构如下：假设有p个训练样本，即有p个输入输出对。输入向量为：Ip(ip1,…ipn)'，实际输出为：Tp=(tp1,…tpn)'，理论输出为：Op=(Op1,…,Opn)'。目标是根据极小原则不断修改权系数使实际输出与理论输出之差最小化，即minΣ(tpi-Opi)2，算法伪代码如下（其中l为学习率）：BP建模步骤：a.初始化权值w（赋一随机值rand(1)）和阈值sita（偏差）b.通过激发函数（如Sigmoid函数）正向传播输入c.通过更新权值w和阈值s 阅读全文

posted @ 2013-11-15 01:29 Jizhiyuan 阅读(486) 评论(0) 推荐(0) 编辑

Data Mining --- Information theory：熵/条件熵/互信息(信息增益)/交叉熵(相对熵/KL距离)

摘要：一、Jensen不等式若f为区间I上的凹函数，则Jensen不等式成立：这里若函数f为凹函数，则有：凹函数（上凸）如下图所示：归纳证明：Jessen不等式是凹函数的基本性质，在信息论中经常用到，常见的凹函数如下图：二、信息论1.熵（信息不确定性度量）2.联合熵3.条件熵4.互信息（信息增益）5.交叉... 阅读全文

posted @ 2013-11-14 18:27 Jizhiyuan 阅读(2016) 评论(0) 推荐(0) 编辑

Data Minig --- Decision Tree & ID3 & C4.5 & Gini Index

摘要：一、决策树学习（适用于“属性-值”实例且输出值离散）决策树学习是一种逼近离散值目标函数的方法，这个方法学到的函数称为一棵决策树。学到的决策树可表示为多个if-then过程以提高可读性。主要算法有：ID3、ASSISTANT、C4.5。决策树的节点表示某个属性，每个分支对应一个属性值，叶子结点为实例所属的分类，整个决策树是实例属性值的合取析取式。图例如下：该决策树的表达式：二、ID3算法（每次选信息增益最大的属性）ID3算法步骤：a.对当前例子集合，计算各属性的信息增益b.选择信息增益最大的属性Aic.在Ai处取相同值的例子归于同一个子集，Ai取几个值就得几个子集d.依次对每种取值情况下的子集, 阅读全文

posted @ 2013-11-14 17:22 Jizhiyuan 阅读(1046) 评论(0) 推荐(0) 编辑

Machine Learning --- Boosting & AdaBoost & Bootstrap

摘要：一、Boosting基本思想思想很朴素，“三个臭皮匠顶个诸葛亮”，由若干个弱分类器可组合成强分类器，通过调整样本的权重（概率）来迭代训练弱分类器（如decision tree），最后形成性能优异的强分类器（如SVM）。主要分为两个步骤：1.改变训练样本的权重分布；2.将弱分类器组合起来。算法内容如下：二、AdaBoost(多个弱分类器的线性组合)在Boosting思想下，AdaBoost算法诞生了（具体化了权重分配与弱分类器组合），算法内容很简单如下：图例如下：训练误差分析：弱分类器的错误率（因为弱分类器总比随机猜测好，随机猜测错误率0.5）：则训练误差（训练误差随循环次数T指数下降）：因此权阅读全文

posted @ 2013-11-14 12:21 Jizhiyuan 阅读(1169) 评论(0) 推荐(0) 编辑

Machine Learning --- Logistic Regression

摘要：一、两类Logistic回归（输出值[0,1]，预测的同时给出分类的概率，用于二分类）目标y∈{0,1}服从Bernolli分布：-log似然为：，其中(1)求解方法一阶梯度下降公式：法1：随机梯度下降：若u(x),y∈{-1,1}，则是著名的Perceptron感知机算法，a为学习率：法2：二阶梯度下降（牛顿法/切线法）一阶梯度：将导数gw在wt处二阶泰勒展开（其中H称为海塞矩阵）：得：因此迭代机制为：法3：IRLS（迭代加权最小二乘），目标是最小化：，其中，(2)加罚项（L2正则）(3)贝叶斯Logistic回归（Laplace/高斯近似：当样本足够多时后验接近高斯分布）先验：似然：后验p 阅读全文

posted @ 2013-11-13 18:44 Jizhiyuan 阅读(476) 评论(0) 推荐(0) 编辑

Machine Learning --- Sparse Model & ARD & BIC/AIC & Sparse Coding

摘要：一、稀疏模型所谓稀疏，即w中不相关特征的权重置0，因此也称“特征选择”。实际应用中只选择总特征的1/3，其他权重赋0。特征选择简化了模型，避免维度灾难，提高了推广性。二、贝叶斯特征选择(1)spike & slab模型，L0正则(非零项个数)选择还是不选择服从Bernoulli分布，先验为：似然为：若似然不能解析求解，可用BIC（贝叶斯信息准则，见3）近似：后验为：，其中整理得目标函数：式子是不是很熟悉，与岭回归一样，就是L2正则变为L0正则，估计参数w的同时完成了特征选择！但L0很难优化。对于给定的，可以得到解析解：。可以贪心搜索（最佳单特征替换SBR、正交最小二乘OLS、正交投影寻阅读全文

posted @ 2013-11-13 15:12 Jizhiyuan 阅读(1121) 评论(1) 推荐(0) 编辑

所以燃