统计

一些思考,不太严谨,从整体上看模型的思路,进行比较。

极大似然?就是后验、大量样本的整体出现概率值最大。样本之间独立。可应用乘法原理。

条件概率,即某(些)条件下某(些)事件出现的概率。

决策树则是求其极大值,局部选择当前条件概率最大。条件概率越大,不确定性越低,条件熵越小。整体熵未必减小。考虑整体熵值的是最大熵模型和logistics模型。都是有一定分布规律前提下推导出满足极大似然极值而得到的w参数。都可以通过拉格朗日将问题转化为无约束求极值,偏导为0,算法里有迭代尺度、梯度下降、牛顿插值。牛顿插值迭代收敛快些。

特征选择无论是熵、增益(比)还是基尼系数都体现出不确定性的思想。增益大则说明特征对结果的影响力大,因为说明条件熵越小,即条件概率越大,该条件下不确定性越低。增益或比越大,而基尼越小越好。因为前者都有-号,类似相反数的关系。本质还条件概率的问题。

决策生成树可以用动归提高算法效率,

感知器从loss func出发,求最小。距离如何定义还要看具体应用场景。主要算法里有Gram矩阵出现,对偶算法。

k邻很简单,经验风险最小,就是多数为胜,即最简单的概率最大思路,k不一样结果可能瞬间不同了,参数也少。

贝叶斯主要有独立限制,在类确定下特征条件独立,才能将公式分子简化,否则不那么容易求最大值,后验概率最大,还是极大似然思路,后验概率这是可用简单的乘法原理表达。如果有0,这里提出可以平滑的思想。

无论是熵、条件熵、基尼系数,还是贝叶斯、条件概率,还是感知器的loss func,还是c4.5里的loss(在剪枝时通过熵建立的loss,加入了模型复杂度因子,通过比较剪枝前后大小来判断是否剪枝),还是logistics(初始分布进行求对数几率,求极大似然最大的参数)、最大熵(公式也化为求极大似然最大)两个对数线性模型的经验分布推导出来的无约束最优化公式,都是对初始概率进行包装,要么转为极大似然问题,要么转为条件概率问题,要么转为loss最小问题。即前两者一是全局最优,一是局部最优(NP只能次优),要么则是定义距离或者说是损失函数、经验风险。则为监督学习中的两种,生成和判别。

对给定输入判别输出,判别要么是f(x),要么是P(Y|X)。前者会出现loss func,定义距离如感知器,后者则决策树、k邻、贝叶斯。对数线性模型也是P(Y|X)概率分布公式表达的分类模型。都可以说是在对这两种函数求最优的问题。但如决策树、k邻,没有什么公式,也就没有什么参数需要调整,大多重点在算法,如决策树里主要是三个算法里剪枝过程应用到熵之类问题,而k邻主要kd树解决高维搜索问题。重点也就放在了特征选择上,业务上,更少放在数据与统计问题。

生成模型,由学习数据得到原始分布,再来求P(Y|X),如贝叶斯。其他都属于判别模型,学习数据不从分布入手,直接探讨特征与类的关系,即x与y之间,是线性如感知器,还是对数线性,还是特征对类的影响力、程度,如决策树。

具体细节,如收敛性证明,拉格朗日转化,最大熵的约束公式,包括泛化误差利用切比雪夫求上界的前提条件,感知器中正负,logistics里对数几率特征空间是n+1维,落在数学上。

 

posted on 2017-10-07 02:38  satyrs  阅读(133)  评论(0编辑  收藏  举报

导航