摘要:
本篇是决策树系列的第二篇,介绍一下决策树的剪枝过程。过拟合是决策树构建过程中常见的问题,信息失衡、噪声等问题都会导致过拟合,剪枝则是提高决策树模型泛化能力的重要手段,下面对常用的剪枝方法作一些介绍。 1. 预剪枝 决策树系列第一篇《分类:决策树——树的生长》中提到过,树的生长是一种“完全”式的生长, 阅读全文
摘要:
分类算法非常适合预测或描述标签为二元或标称类型的数据集,对于标签为序数类型的数据集,分类技术则不太有效,因为分类技术不考虑隐藏在序数中的“序”关系,对于标签其他形式的联系如子类与超类(包含的关系),分类技术也不太适合。 本文是分类模型系列的初篇,先介绍最基本的分类/回归模型——决策树模型。决策树分类 阅读全文
摘要:
对于技术应用人员来说,我们更看重方法的应用,但有时候对知识的背景做一些了解,我觉得还是挺有必要的,能帮助我们理解一些东西。这篇博文里,不会呈现任何计算公式,只是讨论一下贝叶斯学派与频率学派之间的问题。 贝叶斯学派与频率学派是当今数理统计学的两大学派,基于各自的理论,在诸多领域中都起到了重要作用。自2 阅读全文
摘要:
点估计指的是用样本统计量来估计总体参数,因为样本统计量为数轴上某一点值,估计的结果也以一个点的数值表示,所以称为点估计。在这个定义中,总体参数也即是总体分布的参数,一般我们在讨论总体分布的时候,只有在简单随机样本(样本独立同分布)情况下才有明确的意义,总体分布才能决定样本分布,所以下文样本中各随机变 阅读全文
摘要:
作为一名非统计学科班出身的同学,之前只学习过浙大《概率论与数理统计》一书,当时只在意那些公式、理论,应付考试,甚至不知道书中讲述了两门学科的知识:数理统计学、概率论,更不明白二者之间有何关系,直到最近拜读了陈希孺先生的《数理统计学教程》,这才开始有一些理解,于是打算先将自己的一些理解记录下来,待日后 阅读全文
摘要:
在数据挖掘过程中,当一个对象有多个属性(即该对象的测量过程产生多个变量)时,会产生高维度数据,这给数据挖掘工作带来了难度,我们希望用较少的变量来描述数据的绝大多数信息,此时一个比较好的方法是先对数据进行降维处理。数据降维过程不是简单提取部分变量进行分析,这样的方式法当然会降低数据维度,但是这是非常不 阅读全文