摘要:
网上有各种不同安装Xgboost的教程,但是有些教程对于一个新手来说,照着做安装成功是很困难的。本人也是新手,第一次安装Xgboost的时候,照着某个教程做,结果总是安装不上,甚至想到要放弃。后来经一个同事的指点,参考这个两个博客就安装上了。https://blog.csdn.net/lily_du 阅读全文
摘要:
本文主要总结决策树中的ID3,C4.5和CART算法,各种算法的特点,并对比了各种算法的不同点。 决策树:是一种基本的分类和回归方法。在分类问题中,是基于特征对实例进行分类。既可以认为是if-then规则的集合,也可以认为是定义在特征空间和类空间上的条件概率分布。 决策树模型:决策树由结点和有向边组 阅读全文
摘要:
朴素贝叶斯 是基于贝叶斯定理和特征条件独立假设的分类方法对于 给定的训练数据集,首先基于特征条件独立假设学习 输入输出的联合概率分布。然后基于此模型 ,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。 先介绍两个概念:先验概率,是指基于已有知识对随机事件进行概率预估,但不考虑任何相关因素。而 阅读全文
摘要:
线性回归(Linear Regression) 是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合(自变量都是一次方)。只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归。线性回归的模型函 阅读全文
摘要:
在机器学习中,优化损失函数的算法对于优化损失函数非常重要,它决定了损失函数的收敛速度,是否容易收敛甚至能不能收敛,是否收敛在全局最小处。 本文主要总结一种常见的优化 损失函数的算法,即梯度下降法: 梯度下降法: 梯度下降法是求解无约束最优化问题的一种最常用,最经典的算法,有实现简单的优点。它是一种迭 阅读全文
摘要:
在监督学习中,给定输入x,可根据假设函数f(x)预测输出相应的Y。这个f(x)与Y可能一致,也可能不一致。用损失函数来度量预测错误的程度。通常希望的是损失函数的值越小越好。我们一般是通过优化损失函数,把损失函数的值最小时的参数作为预测函数的参数值。 常见的损失函数有: 一:0-1损失函数 二:平方损 阅读全文
摘要:
单层感知机 旨在从训练数据集中得到一个线性的分类超平面,学习的策略是使所有误分类的样本距离超平面的距离最小,具体采用随机梯度下降法,每次随机找到一个误分类样本,使这个样本沿着最小化目标函数的方向更新参数。 给定一个训练数据集 : 其中x∈X=Rn,y∈Y={−1,1},i=1,2,...,N,因为误 阅读全文
摘要:
一:Bagging与随机森林 与Boosting族算法不同的是,Bagging和随机森林的个体学习器之间不存在强的依赖关系,可同时生成并行化的方法。 Bagging算法 bagging的算法过程如下: 1:从原始样本集中使用Bootstraping自助采样的方法随机抽取n个训练样本,共进行k轮抽取, 阅读全文
摘要:
一: 提升方法概述 提升方法是一种常用的统计学习方法,其实就是将多个弱学习器提升(boost)为一个强学习器的算法。其工作机制是通过一个弱学习算法,从初始训练集中训练出一个弱学习器,再根据弱学习器的表现对训练样本分布进行调整,使得先前弱学习器做错的训练样本在后续受到更多的关注,然后基于调整后的样本分 阅读全文