统计 - satyrs - 博客园

统计

一些思考，不太严谨，从整体上看模型的思路，进行比较。

极大似然？就是后验、大量样本的整体出现概率值最大。样本之间独立。可应用乘法原理。

条件概率，即某(些)条件下某(些)事件出现的概率。

决策树则是求其极大值，局部选择当前条件概率最大。条件概率越大，不确定性越低，条件熵越小。整体熵未必减小。考虑整体熵值的是最大熵模型和logistics模型。都是有一定分布规律前提下推导出满足极大似然极值而得到的w参数。都可以通过拉格朗日将问题转化为无约束求极值，偏导为0，算法里有迭代尺度、梯度下降、牛顿插值。牛顿插值迭代收敛快些。

特征选择无论是熵、增益(比)还是基尼系数都体现出不确定性的思想。增益大则说明特征对结果的影响力大，因为说明条件熵越小，即条件概率越大，该条件下不确定性越低。增益或比越大，而基尼越小越好。因为前者都有-号，类似相反数的关系。本质还条件概率的问题。

决策生成树可以用动归提高算法效率，

感知器从loss func出发，求最小。距离如何定义还要看具体应用场景。主要算法里有Gram矩阵出现，对偶算法。

k邻很简单，经验风险最小，就是多数为胜，即最简单的概率最大思路，k不一样结果可能瞬间不同了，参数也少。

贝叶斯主要有独立限制，在类确定下特征条件独立，才能将公式分子简化，否则不那么容易求最大值，后验概率最大，还是极大似然思路，后验概率这是可用简单的乘法原理表达。如果有0，这里提出可以平滑的思想。

无论是熵、条件熵、基尼系数，还是贝叶斯、条件概率，还是感知器的loss func，还是c4.5里的loss(在剪枝时通过熵建立的loss，加入了模型复杂度因子，通过比较剪枝前后大小来判断是否剪枝)，还是logistics(初始分布进行求对数几率，求极大似然最大的参数)、最大熵(公式也化为求极大似然最大)两个对数线性模型的经验分布推导出来的无约束最优化公式，都是对初始概率进行包装，要么转为极大似然问题，要么转为条件概率问题，要么转为loss最小问题。即前两者一是全局最优，一是局部最优(NP只能次优)，要么则是定义距离或者说是损失函数、经验风险。则为监督学习中的两种，生成和判别。

对给定输入判别输出，判别要么是f(x),要么是P(Y|X)。前者会出现loss func，定义距离如感知器，后者则决策树、k邻、贝叶斯。对数线性模型也是P(Y|X)概率分布公式表达的分类模型。都可以说是在对这两种函数求最优的问题。但如决策树、k邻，没有什么公式，也就没有什么参数需要调整，大多重点在算法，如决策树里主要是三个算法里剪枝过程应用到熵之类问题，而k邻主要kd树解决高维搜索问题。重点也就放在了特征选择上，业务上，更少放在数据与统计问题。

生成模型，由学习数据得到原始分布，再来求P(Y|X)，如贝叶斯。其他都属于判别模型，学习数据不从分布入手，直接探讨特征与类的关系，即x与y之间，是线性如感知器，还是对数线性，还是特征对类的影响力、程度，如决策树。

具体细节，如收敛性证明，拉格朗日转化，最大熵的约束公式，包括泛化误差利用切比雪夫求上界的前提条件，感知器中正负，logistics里对数几率特征空间是n+1维，落在数学上。

posted on 2017-10-07 02:38 satyrs 阅读(133) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

satyrs

统计

导航

公告