摘要: 本文重点阐述了xgboost和lightgbm的主要参数和调参技巧,其理论部分可见 "集成学习" ,以下内容主要来自 "xgboost" 和 "LightGBM" 的官方文档。 xgboost Xgboost参数主要分为三大类: General Parameters(通用参数):设置整体功能 Boo 阅读全文
posted @ 2019-05-22 19:35 Jamest 阅读(4803) 评论(0) 推荐(0) 编辑
摘要: 在机器学习中经常会碰到一些高维的数据集,而在高维数据情形下会出现数据样本稀疏,距离计算等困难,这类问题是所有机器学习方法共同面临的严重问题,称之为 “ 维度灾难 ” 。另外在高维特征中容易出现特征之间的线性相关,这也就意味着有的特征是冗余存在的。基于这些问题,降维思想就出现了。 降维就是指采用某种映 阅读全文
posted @ 2019-05-22 19:34 Jamest 阅读(5352) 评论(0) 推荐(0) 编辑
摘要: 聚类是机器学习中一种重要的 无监督算法 ,它可以将数据点归结为一系列特定的组合。理论上归为一类的数据点具有相同的特性,而不同类别的数据点则具有各不相同的属性。在数据科学中聚类会从数据中发掘出很多分析和理解的视角,让我们更深入的把握数据资源的价值、并据此指导生产生活。 基于不同的学习策略,聚类算法可分 阅读全文
posted @ 2019-05-22 19:33 Jamest 阅读(615) 评论(0) 推荐(0) 编辑
摘要: EM算法,即最大期望算法(Expectation maximization algorithm),是在概率模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型 依赖于无法观测的隐性变量 。 最大期望算法经过两个步骤交替进行计算, 第一步是 计算期望(E) ,利用对隐藏变量的现有估计值,计算 阅读全文
posted @ 2019-05-22 17:11 Jamest 阅读(323) 评论(0) 推荐(0) 编辑
摘要: 记录一些常见的机器学习基础概念。 常见的距离算法 1. 欧几里得距离(Euclidean Distance) $$ \sqrt{\sum_{i=1}^N{(x_i y_i)}^2} $$ 标准欧氏距离的思路:现将各个维度的数据进行标准化:标准化后的值 = ( 标准化前的值 - 分量的均值 ) /分量 阅读全文
posted @ 2019-05-22 17:10 Jamest 阅读(769) 评论(0) 推荐(0) 编辑