摘要:
摘要:随机森林与决策树的一个显著的不同点就是它不会产生过度拟合。它的理论依据就是大数定律。 很熟悉的一个名词:大数定律,记得本科的概率论就有学,忘了差不多了,下面先复习下。 大量试验说明,随机事件A的频率R(A),当重复试验的次数n增大时,总呈现出稳定性,稳定在某一个常数的附件,意指数量越多,其平均值就越趋近与期望值。 一:大数定律回顾 切比雪夫定理: 设 a1,a2,a3,…,an 为相互独立的随机变量,其数学期望为:E(ai)=, 及方差D(ai)= 则序列收敛于u,即在定理条件下,当n无限变大时,n个随机变量的算术平均将趋于一个常数。 辛钦定理(切比雪夫... 阅读全文
摘要:
摘要:以前在机器学习中一直使用经验风险来逼近真实风险,但是事实上大多数情况经验风险并不能够准确逼近真实风险。后来业界就提出了泛化误差的概念(generalization error),在机器学习中泛化误差是用来衡量一个学习机器推广未知数据的能力,即根据从样本数据中学习到的规则能够应用到新数据的能力。常用的计算方法是:用在训练集上的误差平均值-在测试集上的误差平均值。 一:经验风险 机器学习本质上是一种对问题真实模型的逼近,这种近似模型也叫做一个假设。因为真实模型肯定是无法得到的,那我们的假设肯定与真实情况之间存在误差,这种误差或者误差的积累也叫做风险。 在我们选择了一个假设(或者获得一个... 阅读全文