机器学习 - 随笔分类 - 潘的博客

Factorization Machine

摘要：Factorization Machine Model如果仅考虑两个样本间的交互, 则factorization machine的公式为:$\hat{y}(\mathbf{x}):=w_0 + \sum_{i=1}^nw_ix_i + \sum_{i=1}^n\sum_{j=i+1}^nx_ix_j... 阅读全文

posted @ 2015-02-27 14:30 潘的博客阅读(2898) 评论(0) 推荐(1)

Hashing Trick

摘要：本博客已经迁往http://www.kemaswill.com/, 博客园这边也会继续更新, 欢迎关注~在机器学习领域, kernel trick是一种非常有效的比较两个样本(对象)的方法. 给定两个对象$x_i, x_j \in \mathcal{X}$, 用$k(x_i, x_j) :=\lef... 阅读全文

posted @ 2014-08-10 17:23 潘的博客阅读(6452) 评论(0) 推荐(1)

Science上发表的超赞聚类算法

摘要：本博客已经迁往http://www.kemaswill.com/, 博客园这边也会继续更新, 欢迎关注~作者(Alex Rodriguez, Alessandro Laio)提出了一种很简洁优美的聚类算法, 可以识别各种形状的类簇, 并且其超参数很容易确定.算法思想该算法的假设是, 类簇的中心由一些... 阅读全文

posted @ 2014-06-28 21:59 潘的博客阅读(7792) 评论(8) 推荐(6)

Contractive Auto-Encoder

摘要：本博客已经迁往http://www.kemaswill.com/, 博客园这边也会继续更新, 欢迎关注~Contractive Autoencoder(CAE)是Bengio等人在2011年提出的一种新的Autoencoder, 在传统的Autoencoder的重构误差上加上了新的惩罚项, 亦即编码... 阅读全文

posted @ 2014-06-26 08:35 潘的博客阅读(3511) 评论(0) 推荐(0)

牛顿方法(Newton-Raphson Method)

摘要：本博客已经迁往http://www.kemaswill.com/, 博客园这边也会继续更新, 欢迎关注~牛顿方法是一种求解等式的非常有效的数值分析方法.1. 牛顿方法假设$x_0$是等式的根$r$的一个比较好的近似, 且$r=x_0+h$, 所以$h$衡量了近似值$x_0$和真实... 阅读全文

posted @ 2014-01-04 17:54 潘的博客阅读(7797) 评论(5) 推荐(0)

摘要：本博客已经迁往http://www.kemaswill.com/, 博客园这边也会继续更新, 欢迎关注~Linear Regression预测的目标$Y$是连续值, Logistic Regression预测的目标是二元变量, 泊松回归预测的是一个整数, 亦即一个计数(Count).1. 泊松分布如果一个离散随机变量$Y$的概率分布函数(probability mass function)为$$Pr(Y=k)=\frac{\lambda^ke^{-\lambda}}{k!}$$其中$\lambda>0, k=0,1,2,...$, 则称$Y$服从泊松分布, 示意图如下图所阅读全文

posted @ 2013-11-25 00:51 潘的博客阅读(16694) 评论(0) 推荐(0)

凸优化(Convex Optimization)浅析

摘要：本博客已经迁往http://www.kemaswill.com/, 博客园这边也会继续更新, 欢迎关注~在机器学习中, 很多情况下我们都需要求得一个问题的全局最优值(global optimum). 大多数的全局最优值很难求得, 但是对于凸问题, 我们可以比较高效的找到其全局最优值, 这是由凸问题的性质决定的.我们将逐步的介绍凸集, 凸函数, 凸问题等.1. 凸集(convex set)对于一个集合$C$, 如果对于任意两个元素$x,y \in C$, 以及任意实数$\theta \in \mathbb{R}$且$0 \leq \theta \leq 1$都满足$$\thet 阅读全文

posted @ 2013-11-23 22:47 潘的博客阅读(11119) 评论(0) 推荐(1)

判别式模型 vs. 生成式模型

摘要：1. 简介生成式模型(generative model)会对$x$和$y$的联合分布$p(x,y)$进行建模,然后通过贝叶斯公式来求得$p(y|x)$, 最后选取使得$p(y|x)$最大的$y_i$. 具体地, $y_{*}=arg \max_{y_i}p(y_i|x)=arg \max_{y_i}\frac{p(x|y_i)p(y_i)}{p(x)}=arg \max_{y_i}p(x|y_i)p(y_i)=arg \max_{y_i}p(x,y_i)$. 判别式模型(discriminative model)则会直接对$p(y|x)$进行建模. 关于二者之阅读全文

posted @ 2013-11-17 02:28 潘的博客阅读(20757) 评论(6) 推荐(2)

计算广告学-多点归因模型(Multi-Touch Attribution Model)

摘要：计算广告学中的一个重要的问题是, 如果用户产生了一次转化(conversion, 比如购买, 注册等), 且该用户在转化之前看过大量不同频道(比如搜索, 展示, 社交等等)的广告, 那么我们如何确定是哪个(或)那些频道的广告导致的这次转化呢? 这就是归因(Attribution)问题, 如下图所示: 工业界采取的两种方法是“最后阅读获胜”(Last View Win)和“最后点击获胜”(Last Click Win), 前者会把转化归因于这个用户最后一次阅读的广告属于的频道, 后者会归因于最后一次点击的广告属于的频道(如果一直没有点击, 则归因于最后一次阅读的广告属于的频道). 以上两种方法. 阅读全文

posted @ 2013-11-13 00:05 潘的博客阅读(8446) 评论(0) 推荐(1)

线搜索(line search)方法

摘要：在机器学习中, 通常需要求某个函数的最值(比如最大似然中需要求的似然的最大值). 线搜索(line search)是求得一个函数$f(x)$的最值的两种常用迭代方法之一(另外一个是trust region). 其思想是首先求得一个下降方向,在这个方向上$f(x)$会下降, 然后是求得$f(x)$在这个方向上下降的步长. 求下降方向的方法有很多, 比如梯度下降, 牛顿方法和Quasi-Newton方法, 而步长可以是固定值, 也可以通过诸如回溯线搜索来求得. 1. 线搜索(line search) 线搜索是一种迭代的求得某个函数的最值的方法. 对于每次迭代, 线搜索会计算得到搜索的. 阅读全文

posted @ 2013-11-11 20:36 潘的博客阅读(27979) 评论(0) 推荐(4)

优化算法-BFGS

摘要：BGFS是一种准牛顿算法, 所谓的"准"是指牛顿算法会使用Hessian矩阵来进行优化, 但是直接计算Hessian矩阵比较麻烦, 所以很多算法会使用近似的Hessian, 这些算法就称作准牛顿算法(Quasi Newton Algorithm). 1. 牛顿算法(Newton Algorithm) 牛顿算法考虑了函数的二阶单数, 是一种二阶优化方法, 并且是所有其他二阶优化方法的鼻祖. 作为对比, 梯度下降(Gradient Descent)只考虑了函数的一阶导数, 是一阶优化方法. 推导过程：我们考虑函数的二阶泰勒展开式: \(\mathit{f_{quad}}(\m 阅读全文

posted @ 2013-10-13 01:11 潘的博客阅读(20646) 评论(0) 推荐(4)

Sparse AutoEncoder简介

摘要：1. AutoEncoder AutoEncoder是一种特殊的三层神经网络, 其输出等于输入:$y^{(i)}=x^{(i)}$, 如下图所示: 亦即AutoEncoder想学到的函数为$f_{W,b} \approx x$, 来使得输出$\hat{x}$比较接近x. 乍看上去学到的这种函数很平凡, 没啥用处, 实际上, 如果我们限制一下AutoEncoder的隐藏单元的个数小于输入特征的个数, 便可以学到数据的很多有趣的结构. 如果特征之间存在一定的相关性, 则AutoEncoder会发现这些相关性. 2. Sparse AutoEncoder 我们可以限制隐藏单元的个数... 阅读全文

posted @ 2013-10-01 23:42 潘的博客阅读(4757) 评论(0) 推荐(0)

Sparse Filtering简介

摘要：当前很多的特征学习(feature learning)算法需要很多的超参数(hyper-parameter)调节, Sparse Filtering则只需要一个超参数--需要学习的特征的个数, 所以非常易于进行参数调节.1.特征分布及其特性基本上所有的参数学习算法都是要生成特定的特征分布, 比如sparse coding是要学得一种稀疏的特征, 亦即学到的特征中只有较少的非零项. 基本上所有的特征学习算法都是为了优化特征分布的某些特性的.Sparse Filtering也是这样的一种特征学习方法, 其目的是为了学到拥有一下特定特性的特征, 为了简洁, 首先定义一下符号表示, 令M为特征分布. 阅读全文

posted @ 2013-09-28 12:13 潘的博客阅读(3331) 评论(0) 推荐(0)

基于受限玻尔兹曼机(RBM)的协同过滤

摘要：受限玻尔兹曼机是一种生成式随机神经网络(generative stochastic neural network), 详细介绍可见我的博文《受限玻尔兹曼机(RBM)简介》, 本文主要介绍RBM在协同过滤的应用。1. 受限玻尔兹曼机简单介绍传统的受限玻尔兹曼机是一种如下图所示, 其由一些可见单元(visible unit，对应可见变量，亦即数据样本)和一些隐藏单元(hidden unit，对应隐藏变量)构成，可见变量和隐藏变量都是二元变量，亦即其状态取{0,1}。整个网络是一个二部图，只有可见单元和隐藏单元之间才会存在边，可见单元之间以及隐藏单元之间都不会有边连接。将该模型应用到协同过滤需. 阅读全文

posted @ 2013-08-20 10:36 潘的博客阅读(8240) 评论(2) 推荐(1)

Deep Belief Network简介

摘要：1. 多层神经网络存在的问题常用的神经网络模型, 一般只包含输入层, 输出层和一个隐藏层：理论上来说, 隐藏层越多, 模型的表达能力应该越强。但是, 当隐藏层数多于一层时, 如果我们使用随机值来初始化权重, 使用梯度下降来优化参数就会出现许多问题[1]:如果初始权重值设置的过大, 则训练过程中权重值会落入局部最小值(而不是全局最小值)。如果初始的权重值设置的过小, 则在使用BP调整参数时, 当误差传递到最前面几层时, 梯度值会很小, 从而使得权重的改变很小, 无法得到最优值。[疑问, 是否可以提高前几层的learning rate来解决这个问题?] 所以, 如果初始的权重值已经比较... 阅读全文

posted @ 2013-08-18 16:52 潘的博客阅读(13065) 评论(1) 推荐(1)

Learning to Rank之RankNet算法简介

摘要：排序一直是信息检索的核心问题之一, Learning to Rank(简称LTR)用机器学习的思想来解决排序问题(关于Learning to Rank的简介请见我的博文Learning to Rank简介)。LTR有三种主要的方法：PointWise，PairWise，ListWise. RankNet是一种Pairwise方法, 由微软研究院的Chris Burges等人在2005年ICML上的一篇论文Learning to Rank Using Gradient Descent中提出，并被应用在微软的搜索引擎Bing当中。1. 损失函数损失函数一直是各种Learning to Rank. 阅读全文

posted @ 2013-08-14 18:46 潘的博客阅读(12751) 评论(1) 推荐(0)

Learning to Rank之Ranking SVM 简介

摘要：排序一直是信息检索的核心问题之一，Learning to Rank(简称LTR)用机器学习的思想来解决排序问题(关于Learning to Rank的简介请见我的博文Learning to Rank简介)。LTR有三种主要的方法：PointWise，PairWise，ListWise。Ranking SVM算法是PointWise方法的一种，由R. Herbrich等人在2000提出, T. Joachims介绍了一种基于用户Clickthrough数据使用Ranking SVM来进行排序的方法(SIGKDD, 2002)。1. Ranking SVM的主要思想 Ranking SVM是一种. 阅读全文

posted @ 2013-08-06 21:14 潘的博客阅读(31042) 评论(4) 推荐(0)

受限玻尔兹曼机(Restricted Boltzmann Machine, RBM) 简介

摘要：受限玻尔兹曼机(Restricted Boltzmann Machine,简称RBM)是由Hinton和Sejnowski于1986年提出的一种生成式随机神经网络(generative stochastic neural network)，该网络由一些可见单元(visible unit，对应可见变量，亦即数据样本)和一些隐藏单元(hidden unit，对应隐藏变量)构成，可见变量和隐藏变量都是二元变量，亦即其状态取{0,1}。整个网络是一个二部图，只有可见单元和隐藏单元之间才会存在边，可见单元之间以及隐藏单元之间都不会有边连接，如下图所示：上图所示的RBM含有12个可见单元(构成一个向量. 阅读全文

posted @ 2013-07-21 13:06 潘的博客阅读(80857) 评论(3) 推荐(7)

偏置-方差分解(Bias-Variance Decomposition)

摘要：本文地址为：http://www.cnblogs.com/kemaswill/，作者联系方式为kemaswill@163.com,转载请注明出处。机器学习的目标是学得一个泛化能力比较好的模型。所谓泛化能力，是指根据训练数据训练出来的模型在新的数据上的性能。这就牵扯到机器学习中两个非常重要的概念：欠拟合和过拟合。如果一个模型在训练数据上表现非常好，但是在新数据集上性能很差，就是过拟合，反之，如果在训练数据集和新数据集上表现都很差，就是欠拟合，如下图所示其中蓝叉点表示训练数据，蓝色的线表示学到的模型。左边学到的模型不能很好的描述训练数据，模型过于简单，是欠拟合(Under-fitting)。中阅读全文

posted @ 2013-06-15 23:27 潘的博客阅读(7136) 评论(1) 推荐(3)

Learning to Rank 简介

摘要：去年实习时，因为项目需要，接触了一下Learning to Rank(以下简称L2R)，感觉很有意思，也有很大的应用价值。L2R将机器学习的技术很好的应用到了排序中，并提出了一些新的理论和算法，不仅有效地解决了排序的问题，其中一些算法(比如LambdaRank)的思想非常新颖，可以在其他领域中进行借鉴。鉴于排序在许多领域中的核心地位，L2R可以被广泛的应用在信息(文档)检索，协同过滤等领域。本文将对L2R做一个比较深入的介绍，主要参考了刘铁岩、李航等人的几篇相关文献[1,2,3]，我们将围绕以下几点来介绍L2R：现有的排序模型，为什么需要使用机器学习的方法来进行排序，L2R特征的选取，L2. 阅读全文

posted @ 2013-06-01 16:09 潘的博客阅读(31675) 评论(3) 推荐(6)

随笔分类 - 机器学习