摘要:
CART(Classification and Regression Trees)是一种常用的决策树算法,既可以用于分类问题,也可以用于回归问题。CART算法由Breiman等人于1984年提出,是一种基于递归二分划分的贪婪算法。以下是对CART算法的详细解释: 1. 决策树的构建过程: CART算 阅读全文
摘要:
信息增益(Information Gain)是在决策树构建过程中用于选择最佳分裂特征的一种度量。它用于衡量在某个特征条件下,将数据集分成不同类别所能带来的纯度提升。 信息熵的概念: 为了理解信息增益,首先要理解信息熵。信息熵是用于度量一个系统的不确定性或无序程度的概念。对于一个二分类问题,信息熵的计 阅读全文
摘要:
在随机森林中,熵是一种用于度量数据的纯度或无序程度的概念,特别是在决策树的构建过程中。熵越低,表示数据越有序,纯度越高。 信息熵的定义: 信息熵是由信息论引入的概念,用于度量一个系统的不确定性。在决策树中,熵通常用于衡量一个节点的纯度,即该节点包含的样本属于不同类别的程度。 对于一个二分类问题,假设 阅读全文
摘要:
随机森林(Random Forest)是一种强大的集成学习算法,通过构建多个决策树并综合它们的结果来提高整体模型的性能。以下是随机森林的优缺点: 优点: 高准确性: 随机森林通常能够提供较高的预测准确性,尤其在处理复杂数据和高维数据时表现出色。 鲁棒性: 由于随机森林平均了多个决策树的结果,因此对于 阅读全文
摘要:
袋外错误率(Out-of-Bag Error)是在使用自助采样(Bootstrap Sampling)构建集成模型时的一个重要评估指标,尤其是在随机森林中常被使用。在自助采样中,由于每个模型的训练集都是通过有放回地从原始数据集中采样得到的,一部分样本可能没有被采样到,这部分未被采样到的样本称为袋外样 阅读全文
摘要:
在构建随机森林时的一个关键参数:特征子集的选择数量 m。在随机森林中,每次分裂节点时都是从当前节点的 m 个特征子集中选择最优的特征来进行分裂。这种特征选择的方式有助于引入随机性,增加模型的多样性,提高整体模型的泛化性能。 让我们逐步解释这段话中的关键概念: 每个样本的特征维度为 M: 假设我们有一 阅读全文
摘要:
剪枝(Pruning)是决策树中用于减小过拟合风险的一种技术。在构建决策树的过程中,为了在训练集上达到更好的拟合,模型可能会变得过于复杂,导致在未见过的数据上表现不佳。剪枝通过修剪掉一些树的部分来降低模型的复杂度,从而提高模型在新数据上的泛化性能。 剪枝分为两种类型:预剪枝(Pre-Pruning) 阅读全文
摘要:
过拟合(Overfitting)是指机器学习模型在训练数据上表现得太好,以至于无法很好地泛化到未见过的数据。过拟合的模型在训练数据上表现良好,但在新的、未见过的数据上表现较差。这是因为模型在训练数据上学到了数据的噪声和细节,而不是真正的数据模式。 过拟合的主要原因包括: 模型复杂度过高: 如果模型过 阅读全文
摘要:
OOB(Out-of-Bag)误差是一种评估随机森林模型性能的方法。随机森林采用自助采样(Bootstrap Sampling)的方式生成每个决策树的训练集,这意味着每个样本在某些树的训练中可能没有被采样到。OOB误差利用这种未被采样到的样本来评估模型的性能。 具体来说,对于每个样本,如果它在某个决 阅读全文
摘要:
"扰动"指的是在集成学习过程中引入的随机性或不确定性。扰动的引入有助于增加模型的多样性,从而提高整体模型的泛化性能。在集成学习中,主要通过两种方式引入扰动:样本扰动和属性扰动。 样本扰动: 在Bagging(Bootstrap Aggregating)中,通过有放回地从原始训练集中随机抽样生成多个不 阅读全文