05 2019 档案
摘要:推荐系统是一种信息过滤系统,用于预测用户对物品的评分或偏好。解决的是信息过载和长尾问题(长尾理论)。它的本质是通过一定的方式将用户和物品联系起来。 推荐系统在为用户推荐物品时通常有两种方式: 1.评分预测 2.TopN推荐 主流的推荐系统算法可以分为协同过滤推荐(Collaborative Filt
阅读全文
摘要:概率图模型(PGM)是一种对现实情况进行描述的模型。其核心是条件概率,本质上是利用先验知识,确立一个随机变量之间的关联约束关系,最终达成方便求取条件概率的目的。 概率图中的节点分为隐含节点和观测节点,边分为有向边和无向边,节点对应于随机变量,边对应于随机变量的依赖或相关关系。 概率图模型分为贝叶斯网
阅读全文
摘要:集成学习的目的是通过结合多个基学习器的预测结果来改善单个学习器的泛化能力和鲁棒性。 目前主流方法有三种: 1.Boosting方法:包括Adaboost,GBDT, XGBoost等 2.Bagging方法:典型的是Random Forest 3.Stacking算法 RF Random Fores
阅读全文
摘要:本文重点阐述了xgboost和lightgbm的主要参数和调参技巧,其理论部分可见 "集成学习" ,以下内容主要来自 "xgboost" 和 "LightGBM" 的官方文档。 xgboost Xgboost参数主要分为三大类: General Parameters(通用参数):设置整体功能 Boo
阅读全文
摘要:在机器学习中经常会碰到一些高维的数据集,而在高维数据情形下会出现数据样本稀疏,距离计算等困难,这类问题是所有机器学习方法共同面临的严重问题,称之为 “ 维度灾难 ” 。另外在高维特征中容易出现特征之间的线性相关,这也就意味着有的特征是冗余存在的。基于这些问题,降维思想就出现了。 降维就是指采用某种映
阅读全文
摘要:聚类是机器学习中一种重要的 无监督算法 ,它可以将数据点归结为一系列特定的组合。理论上归为一类的数据点具有相同的特性,而不同类别的数据点则具有各不相同的属性。在数据科学中聚类会从数据中发掘出很多分析和理解的视角,让我们更深入的把握数据资源的价值、并据此指导生产生活。 基于不同的学习策略,聚类算法可分
阅读全文
摘要:EM算法,即最大期望算法(Expectation maximization algorithm),是在概率模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型 依赖于无法观测的隐性变量 。 最大期望算法经过两个步骤交替进行计算, 第一步是 计算期望(E) ,利用对隐藏变量的现有估计值,计算
阅读全文
摘要:记录一些常见的机器学习基础概念。 常见的距离算法 1. 欧几里得距离(Euclidean Distance) 标准欧氏距离的思路:现将各个维度的数据进行标准化:标准化后的值 = ( 标准化前的值 - 分量的均值 ) /分量
阅读全文
摘要:支持向量机模型(SVM)是一个二分类模型,基本思想是 求解能够正确划分训练数据集并且几何间隔最大的分离超平面 ,其学习策略便是间隔最大化,最终化为一个凸二次规划问题的求解。 SVM可分为线性可分支持向量机、线性支持向量机和非线性支持向量机。 <! more 算法推导 1. 线性可分支持向量机 引入函
阅读全文
摘要:决策树的目标是从一组样本数据中,根据不同的特征和属性,建立一棵树形的分类结构。 决策树的学习本质上是从训练集中归纳出一组分类规则,得到与数据集矛盾较小的决策树,同时具有很好的泛化能力。决策树学习的损失函数通常是正则化的极大似然函数 ,通常采用启发式方法,近似求解这一最优化问题。 算法原理 ID3 最
阅读全文
摘要:逻辑回归模型是针对线性可分问题的一种易于实现而且性能优异的分类模型。 它假设数据服从伯努利分布,通过极大化似然函数的方法,运用梯度下降法来求解参数,来达到将数据二分类的目的。 算法推导 引入几率比(odds):指一个事件发生的概率与不发生概率的比值。对其求log,可得: $$ logit(p) =
阅读全文
摘要:最大熵模型是指在满足约束条件的模型集合中选取熵最大的模型,即不确定性最大的模型。 <! more 最大熵原理 最大熵思想 :当你要猜一个概率分布时,如果你对这个分布一无所知,那就猜熵最大的均匀分布,如果你对这个分布知道一些情况,那么,就猜满足这些情况的熵最大的分布。 算法推导 按照最大熵原理,我们应
阅读全文