2019 年 5月随笔档案 - Jamest

推荐系统概述（一）

摘要：推荐系统是一种信息过滤系统，用于预测用户对物品的评分或偏好。解决的是信息过载和长尾问题(长尾理论)。它的本质是通过一定的方式将用户和物品联系起来。推荐系统在为用户推荐物品时通常有两种方式： 1.评分预测 2.TopN推荐主流的推荐系统算法可以分为协同过滤推荐（Collaborative Filt 阅读全文

posted @ 2019-05-30 22:18 Jamest 阅读(2606) 评论(0) 推荐(1) 编辑

概率图模型

摘要：概率图模型（PGM）是一种对现实情况进行描述的模型。其核心是条件概率，本质上是利用先验知识，确立一个随机变量之间的关联约束关系，最终达成方便求取条件概率的目的。概率图中的节点分为隐含节点和观测节点，边分为有向边和无向边，节点对应于随机变量，边对应于随机变量的依赖或相关关系。概率图模型分为贝叶斯网阅读全文

posted @ 2019-05-28 21:10 Jamest 阅读(1223) 评论(0) 推荐(0) 编辑

集成学习

摘要：集成学习的目的是通过结合多个基学习器的预测结果来改善单个学习器的泛化能力和鲁棒性。目前主流方法有三种： 1.Boosting方法：包括Adaboost，GBDT, XGBoost等 2.Bagging方法：典型的是Random Forest 3.Stacking算法 RF Random Fores 阅读全文

posted @ 2019-05-27 21:05 Jamest 阅读(925) 评论(0) 推荐(0) 编辑

xgboost&lightgbm调参指南

摘要：本文重点阐述了xgboost和lightgbm的主要参数和调参技巧，其理论部分可见 "集成学习" ,以下内容主要来自 "xgboost" 和 "LightGBM" 的官方文档。 xgboost Xgboost参数主要分为三大类： General Parameters（通用参数）：设置整体功能 Boo 阅读全文

posted @ 2019-05-22 19:35 Jamest 阅读(4909) 评论(0) 推荐(0) 编辑

降维算法一览

摘要：在机器学习中经常会碰到一些高维的数据集，而在高维数据情形下会出现数据样本稀疏，距离计算等困难，这类问题是所有机器学习方法共同面临的严重问题，称之为 “ 维度灾难 ” 。另外在高维特征中容易出现特征之间的线性相关，这也就意味着有的特征是冗余存在的。基于这些问题，降维思想就出现了。降维就是指采用某种映阅读全文

posted @ 2019-05-22 19:34 Jamest 阅读(5417) 评论(0) 推荐(0) 编辑

聚类算法一览

摘要：聚类是机器学习中一种重要的无监督算法，它可以将数据点归结为一系列特定的组合。理论上归为一类的数据点具有相同的特性，而不同类别的数据点则具有各不相同的属性。在数据科学中聚类会从数据中发掘出很多分析和理解的视角，让我们更深入的把握数据资源的价值、并据此指导生产生活。基于不同的学习策略，聚类算法可分阅读全文

posted @ 2019-05-22 19:33 Jamest 阅读(620) 评论(0) 推荐(0) 编辑

EM算法

摘要：EM算法，即最大期望算法（Expectation maximization algorithm），是在概率模型中寻找参数最大似然估计或者最大后验估计的算法，其中概率模型依赖于无法观测的隐性变量。最大期望算法经过两个步骤交替进行计算，第一步是计算期望（E），利用对隐藏变量的现有估计值，计算阅读全文

posted @ 2019-05-22 17:11 Jamest 阅读(325) 评论(0) 推荐(0) 编辑

机器学习基础概念

摘要：记录一些常见的机器学习基础概念。常见的距离算法 1. 欧几里得距离（Euclidean Distance）

\sqrt{\sum_{i = 1}^{N} {(x_{i} y_{i})}^{2}}

$\sqrt{\sum_{i=1}^N{(x_i y_i)}^2}$ 标准欧氏距离的思路：现将各个维度的数据进行标准化：标准化后的值 = ( 标准化前的值－分量的均值 ) /分量阅读全文

posted @ 2019-05-22 17:10 Jamest 阅读(783) 评论(0) 推荐(0) 编辑

支持向量机模型

摘要：支持向量机模型(SVM)是一个二分类模型，基本思想是求解能够正确划分训练数据集并且几何间隔最大的分离超平面，其学习策略便是间隔最大化，最终化为一个凸二次规划问题的求解。 SVM可分为线性可分支持向量机、线性支持向量机和非线性支持向量机。 <! more 算法推导 1. 线性可分支持向量机引入函阅读全文

posted @ 2019-05-20 17:18 Jamest 阅读(4614) 评论(0) 推荐(0) 编辑

决策树模型

摘要：决策树的目标是从一组样本数据中，根据不同的特征和属性，建立一棵树形的分类结构。决策树的学习本质上是从训练集中归纳出一组分类规则，得到与数据集矛盾较小的决策树，同时具有很好的泛化能力。决策树学习的损失函数通常是正则化的极大似然函数，通常采用启发式方法，近似求解这一最优化问题。算法原理 ID3 最阅读全文

posted @ 2019-05-17 19:16 Jamest 阅读(3187) 评论(0) 推荐(0) 编辑

逻辑回归模型

摘要：逻辑回归模型是针对线性可分问题的一种易于实现而且性能优异的分类模型。它假设数据服从伯努利分布,通过极大化似然函数的方法，运用梯度下降法来求解参数，来达到将数据二分类的目的。算法推导引入几率比（odds）：指一个事件发生的概率与不发生概率的比值。对其求log，可得： $$ logit(p) = 阅读全文

posted @ 2019-05-15 15:43 Jamest 阅读(4924) 评论(0) 推荐(0) 编辑

最大熵模型

摘要：最大熵模型是指在满足约束条件的模型集合中选取熵最大的模型，即不确定性最大的模型。 <! more 最大熵原理最大熵思想：当你要猜一个概率分布时，如果你对这个分布一无所知，那就猜熵最大的均匀分布，如果你对这个分布知道一些情况，那么，就猜满足这些情况的熵最大的分布。算法推导按照最大熵原理,我们应阅读全文

posted @ 2019-05-14 15:09 Jamest 阅读(1547) 评论(0) 推荐(0) 编辑

Jamest

05 2019 档案

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论