随笔分类 -  Machine Learning

摘要:基础概念 LigthGBM是boosting集合模型中的新进成员,它和xgboost一样是对GBDT的高效实现,很多方面会比xgboost表现的更为优秀。原理上它和GBDT及xgboot类似,都采用损失函数的负梯度作为当前决策树的残差近似值,去拟合新的决策树。 LightGBM的优化点 1、采用直方 阅读全文
posted @ 2018-07-21 16:12 molearner 阅读(10102) 评论(1) 推荐(1) 编辑
摘要:基础概念 超参数是在开始学习过程之前设置值的参数,而不是通过训练得到的参数数据。通常情况下,在机器学习过程中需要对超参数进行优化,给学习器选择一组最优超参数,以提高学习的性能和效果。比如,树的数量或树的深度,学习率(多种模式)以及k均值聚类中的簇数等都是超参数。 与超参数区别的概念是参数,它是模型训 阅读全文
posted @ 2018-07-17 22:33 molearner 阅读(18554) 评论(0) 推荐(3) 编辑
摘要:基础概念 特征工程是通过对原始数据的处理和加工,将原始数据属性通过处理转换为数据特征的过程,属性是数据本身具有的维度,特征是数据中所呈现出来的某一种重要的特性,通常是通过属性的计算,组合或转换得到的。比如主成分分析就是将大量的数据属性转换为少数几个特征的过程。某种程度而言,好的数据以及特征往往是一个 阅读全文
posted @ 2018-04-26 22:59 molearner 阅读(42855) 评论(0) 推荐(2) 编辑
摘要:基础概念 类别不均衡是指在分类学习算法中,不同类别样本的比例相差悬殊,它会对算法的学习过程造成重大的干扰。比如在一个二分类的问题上,有1000个样本,其中5个正样本,995个负样本,在这种情况下,算法只需将所有的样本预测为负样本,那么它的精度也可以达到99.5%,虽然结果的精度很高,但它依然没有价值 阅读全文
posted @ 2018-04-19 22:06 molearner 阅读(19100) 评论(0) 推荐(1) 编辑
摘要:基础概念 在建模过程中,由于偏差过大导致的模型欠拟合以及方差过大导致的过拟合的存在,为了解决这两个问题,我们需要一整套方法及评价指标。其中评估方法用于评估模型的泛化能力,而性能指标则用于评价单个模型性能的高低。 泛化性能 模型的泛化性能是由学习算法的能力,数据的充分性及学习任务本身的难度所决定的,良 阅读全文
posted @ 2018-04-09 22:57 molearner 阅读(11931) 评论(0) 推荐(0) 编辑
摘要:基础概念 XGBoost(eXtreme Gradient Boosting)是GradientBoosting算法的一个优化的版本,针对传统GBDT算法做了很多细节改进,包括损失函数、正则化、切分点查找算法优化等。 xgboost的优化点 相对于传统的GBM,XGBoost增加了正则化步骤。正则化 阅读全文
posted @ 2018-04-03 23:00 molearner 阅读(5161) 评论(0) 推荐(1) 编辑
摘要:基础概念 GBDT(Gradient Boosting Decision Tree) 全称梯度提升决策树,是一种迭代的决策树算法。GBDT是集成学习Boosting的家族成员,GBDT中的树是回归树,用于回归预测,调整后也可以用于分类。 分类树与回归树的差异 分类树大致的实现过程是:穷举每一个属性特 阅读全文
posted @ 2018-03-20 21:35 molearner 阅读(743) 评论(0) 推荐(0) 编辑
摘要:基础概念 随机森林是用随机的方式建立一个森林,森林里面有很多的决策树,并且每一棵决策树之间没有关联。也可说随机森林是决策树的组合模型,其中决策树的组合形式采用类bagging的形式。 Boostrap、Bagging和Boosting(补充理解) Boostrap: Boostrap是一种组合方法的 阅读全文
posted @ 2018-03-13 23:04 molearner 阅读(1790) 评论(0) 推荐(0) 编辑
摘要:机器学习的基础概念 机器学习时一门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。 机器学习主要使用的学习方法是归纳,而不是演绎。 机器学习更多的使用归纳 阅读全文
posted @ 2018-03-11 22:22 molearner 阅读(3357) 评论(0) 推荐(0) 编辑
摘要:决策树基础概念 在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。Entropy (熵) 表示的是系统的凌乱程度,它是决策树的决策依据,熵的概念来源于香侬的信息论。 决策树的决策过程 选择分裂特征:根据某一指标(信息增益,信息增益比或基尼系数)计算不同特征的指标值,选 阅读全文
posted @ 2017-01-15 14:49 molearner 阅读(7968) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示