随笔分类 - 统计学习方法
摘要:学习数据得到模型的方法分为两种:生成方法和判别方法。 生成模型: 由数据学习得到联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测模型,即生成模型(Generative Model): 典型的生成模型:朴素贝叶斯、隐马尔可夫模型 注:输入和输出变量要求为随机变量。 判别模型: 由数据
阅读全文
摘要:泛化能力 泛化误差 泛化误差上界 指的泛化误差的概率上界。两种学习方法的优劣,通常通过他们的泛化误差上界进行比较。 性质: 他是样本容量的函数:当样本容量增加时,泛化上界趋于0 他是假设空间容量的函数:假设空间容量越大,模型就越难学,泛化误差上界就越大。 例:二分类泛化误差上界 定理(泛化误差上界)
阅读全文
摘要:统计学习的三要素: 统计学习方法 = 模型 + 策略 + 算法 无监督学习 模型有以下三种表示方式: Z来自于隐式结构空间的。 模型相应的假设空间分别是:所有可能的函数组成的集合,给定x的情况下z的条件概率分布集合 或者 给定z的情况下x的条件概率分布集合。 参数空间:所有可能的参数θ。 策略:优化
阅读全文
摘要:一、统计学习的概念 统计学习(Statistical Machine Learning)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。 从已知到未知的方法。 统计学习的方法步骤 得到一个有限的训练数据集合 确定学习模型的集合—————— 模型 确定模型选择的准则———
阅读全文