上一页 1 ··· 20 21 22 23 24
摘要: 本文重点阐述了xgboost和lightgbm的主要参数和调参技巧,其理论部分可见 "集成学习" ,以下内容主要来自 "xgboost" 和 "LightGBM" 的官方文档。 xgboost Xgboost参数主要分为三大类: General Parameters(通用参数):设置整体功能 Boo 阅读全文
posted @ 2019-05-22 19:35 Jamest 阅读(4803) 评论(0) 推荐(0) 编辑
摘要: 在机器学习中经常会碰到一些高维的数据集,而在高维数据情形下会出现数据样本稀疏,距离计算等困难,这类问题是所有机器学习方法共同面临的严重问题,称之为 “ 维度灾难 ” 。另外在高维特征中容易出现特征之间的线性相关,这也就意味着有的特征是冗余存在的。基于这些问题,降维思想就出现了。 降维就是指采用某种映 阅读全文
posted @ 2019-05-22 19:34 Jamest 阅读(5352) 评论(0) 推荐(0) 编辑
摘要: 聚类是机器学习中一种重要的 无监督算法 ,它可以将数据点归结为一系列特定的组合。理论上归为一类的数据点具有相同的特性,而不同类别的数据点则具有各不相同的属性。在数据科学中聚类会从数据中发掘出很多分析和理解的视角,让我们更深入的把握数据资源的价值、并据此指导生产生活。 基于不同的学习策略,聚类算法可分 阅读全文
posted @ 2019-05-22 19:33 Jamest 阅读(615) 评论(0) 推荐(0) 编辑
摘要: EM算法,即最大期望算法(Expectation maximization algorithm),是在概率模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型 依赖于无法观测的隐性变量 。 最大期望算法经过两个步骤交替进行计算, 第一步是 计算期望(E) ,利用对隐藏变量的现有估计值,计算 阅读全文
posted @ 2019-05-22 17:11 Jamest 阅读(323) 评论(0) 推荐(0) 编辑
摘要: 记录一些常见的机器学习基础概念。 常见的距离算法 1. 欧几里得距离(Euclidean Distance) $$ \sqrt{\sum_{i=1}^N{(x_i y_i)}^2} $$ 标准欧氏距离的思路:现将各个维度的数据进行标准化:标准化后的值 = ( 标准化前的值 - 分量的均值 ) /分量 阅读全文
posted @ 2019-05-22 17:10 Jamest 阅读(769) 评论(0) 推荐(0) 编辑
摘要: 支持向量机模型(SVM)是一个二分类模型,基本思想是 求解能够正确划分训练数据集并且几何间隔最大的分离超平面 ,其学习策略便是间隔最大化,最终化为一个凸二次规划问题的求解。 SVM可分为线性可分支持向量机、线性支持向量机和非线性支持向量机。 <! more 算法推导 1. 线性可分支持向量机 引入函 阅读全文
posted @ 2019-05-20 17:18 Jamest 阅读(4576) 评论(0) 推荐(0) 编辑
摘要: 决策树的目标是从一组样本数据中,根据不同的特征和属性,建立一棵树形的分类结构。 决策树的学习本质上是从训练集中归纳出一组分类规则,得到与数据集矛盾较小的决策树,同时具有很好的泛化能力。决策树学习的损失函数通常是正则化的极大似然函数 ,通常采用启发式方法,近似求解这一最优化问题。 算法原理 ID3 最 阅读全文
posted @ 2019-05-17 19:16 Jamest 阅读(3138) 评论(0) 推荐(0) 编辑
摘要: 逻辑回归模型是针对线性可分问题的一种易于实现而且性能优异的分类模型。 它假设数据服从伯努利分布,通过极大化似然函数的方法,运用梯度下降法来求解参数,来达到将数据二分类的目的。 算法推导 引入几率比(odds):指一个事件发生的概率与不发生概率的比值。对其求log,可得: $$ logit(p) = 阅读全文
posted @ 2019-05-15 15:43 Jamest 阅读(4908) 评论(0) 推荐(0) 编辑
摘要: 最大熵模型是指在满足约束条件的模型集合中选取熵最大的模型,即不确定性最大的模型。 <! more 最大熵原理 最大熵思想 :当你要猜一个概率分布时,如果你对这个分布一无所知,那就猜熵最大的均匀分布,如果你对这个分布知道一些情况,那么,就猜满足这些情况的熵最大的分布。 算法推导 按照最大熵原理,我们应 阅读全文
posted @ 2019-05-14 15:09 Jamest 阅读(1498) 评论(0) 推荐(0) 编辑
上一页 1 ··· 20 21 22 23 24