随笔分类 -  Machine Learning

摘要:如果需要代做算法,可以联系我...博客右侧有联系方式。 一、正规化方程概念 假设我们有m个样本。特征向量的维度为n。因此,可知样本为{(x(1),y(1)), (x(2),y(2)),... ..., (x(m),y(m))},其中对于每一个样本中的x(i),都有x(i)={x1(i), xn(i) 阅读全文
posted @ 2015-10-27 20:08 加拿大小哥哥 编辑
摘要:简单来说,它主要用来把所有特征值范围映射至同样的范围里面如(0,1)、(-1,1)、(-0.5,0.5)等。 Feature scaling (数据规范化) 是数据挖掘或机器学习常用到的步骤,这个步骤有时对算法的效率和准确率都会产生巨大的影响。 对精度的影响:很明显,这个步骤的必要性要依赖于... 阅读全文
posted @ 2015-10-27 20:04 加拿大小哥哥 编辑
摘要:一、第一种理解 相对熵(relative entropy)又称为KL散度(Kullback–Leibler divergence,简称KLD),信息散度(information divergence),信息增益(information gain)。 KL散度是两个概率分布P和Q差别的非对称性... 阅读全文
posted @ 2015-10-26 16:46 加拿大小哥哥 编辑
摘要:贝叶斯网络定了这样一个独立的结构:一个节点的概率仅依赖于它的父节点。贝叶斯网络更加适用于稀疏模型,即大部分节点之间不存在任何直接的依赖关系。联合概率,即所有节点的概率,将所有条件概率相乘:我们最终的目标是计算准确的边缘概率,比如计算Hangover的概率。在数学上,边缘概率被定义为各种状态下系统所有... 阅读全文
posted @ 2015-10-22 19:14 加拿大小哥哥 编辑
摘要:归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为纯量。归一化是为了加快训练网络的收敛性,可以不进行归一化处理 归一化的具体作用是归纳统一样本的统计分布性。归一化在0-1之间是统计的概率分布,归一化在-1--+1之间是统计的坐标分布。 在这里主要讨论两种归一化... 阅读全文
posted @ 2015-10-22 16:31 加拿大小哥哥 编辑
摘要:F-范数与2-范数是不一样的. 这是我前几天回答的一个问题,节选一部分: A是矩阵,则: 1-范数是:max(sum(abs(A)),就是对A的每列的绝对值求和 再求其中的最大值,也叫列范数 2-范数是:求A'*A 的特征值,找出其中的最大特征值,求其平方根 相当于max(sqrt(... 阅读全文
posted @ 2015-10-22 09:47 加拿大小哥哥 编辑
摘要:1.矩阵分解是推荐系统常用的手段,经常用来做用户偏好预测.在当下的推荐系统中,我们得到用户对于物品的评分矩阵往往是非常稀疏的,一个有m个用户,n个商品的网站,它所收集到的m*n用户评分矩阵R可能只有不到万分之一的数据非零.矩阵分解算法常用来构造出多个矩阵, 用这些矩阵相乘的结果R’来拟合原来的评... 阅读全文
posted @ 2015-10-16 15:45 加拿大小哥哥 编辑
摘要:对于一个用户来说,他们可能有不同的兴趣。就以作者举的豆瓣书单的例子来说,用户A会关注数学,历史,计算机方面的书,用户B喜欢机器学习,编程语言,离散数学方面的书, 用户C喜欢大师Knuth, Jiawei Han等人的著作。那我们在推荐的时候,肯定是向用户推荐他感兴趣的类别下的图书。那么前提是我们... 阅读全文
posted @ 2015-10-16 15:23 加拿大小哥哥 编辑
摘要:一、理论二、数据集6.1101,17.5925.5277,9.13028.5186,13.6627.0032,11.8545.8598,6.82338.3829,11.8867.4764,4.34838.5781,126.4862,6.59875.0546,3.81665.7107,3.252214... 阅读全文
posted @ 2015-10-16 10:42 加拿大小哥哥 编辑
摘要:这里我想给大家介绍另外一种推荐系统,这种算法叫做潜在因子(Latent Factor)算法。这种算法是在NetFlix(没错,就是用大数据捧火《纸牌屋》的那家公司)的推荐算法竞赛中获奖的算法,最早被应用于电影推荐中。这种算法在实际应用中比现在排名第一的@邰原朗所介绍的算法误差(RMSE)会小不少... 阅读全文
posted @ 2015-10-15 16:24 加拿大小哥哥 编辑
摘要: 阅读全文
posted @ 2015-10-15 15:55 加拿大小哥哥 编辑
摘要:一、原理 它是建立在极大似然原理的基础上的一个统计方法,极大似然原理的直观想法是:一个随机试验如有若干个可能的结果A,B,C,…。若在仅仅作一次试验中,结果A出现,则一般认为试验条件对A出现有利,也即A出现的概率很大。一般地,事件A发生的概率与参数theta相关,A发生的概率记为P(A,theta... 阅读全文
posted @ 2015-10-15 15:42 加拿大小哥哥 编辑
摘要:目标函数是要最小化C: 求其梯度: 梯度下降求最小值: 阅读全文
posted @ 2015-10-15 10:59 加拿大小哥哥 编辑
摘要:本文将简单介绍下最近学习到的矩阵分解方法。 (1)PureSvd 矩阵分解的核心是将一个非常稀疏的评分矩阵分解为两个矩阵,一个表示user的特性,一个表示item的特性,将两个矩阵中各取一行和一列向量做内积就可以得到对应评分。 那么如何将一个矩阵分解为两个矩阵就是唯一的问题了。说到这里... 阅读全文
posted @ 2015-10-15 10:49 加拿大小哥哥 编辑
摘要:为了方便介绍,假设推荐系统中有用户集合有6个用户,即U={u1,u2,u3,u4,u5,u6},项目(物品)集合有7个项目,即V={v1,v2,v3,v4,v5,v6,v7},用户对项目的评分结合为R,用户对项目的评分范围是[0, 5]。R具体表示如下: 推荐系统的目标就是预测出符号“?”对... 阅读全文
posted @ 2015-10-15 10:23 加拿大小哥哥 编辑
摘要:一、什么是贝叶斯推断 贝叶斯推断(Bayesian inference)是一种统计学方法,用来估计统计量的某种性质。它是贝叶斯定理(Bayes' theorem)的应用。英国数学家托马斯·贝叶斯(Thomas Bayes)在1763年发表的一篇论文中,首先提出了这个定理。 贝叶斯推断与其他统计学... 阅读全文
posted @ 2015-10-14 10:28 加拿大小哥哥 编辑
摘要:一、基本概念 基本的矩阵分解方法通过学习用户和物品的特征向量进行预测,即用户和物品的交互信息。用户的特征向量代表了用户的兴趣,物品的特征向量代表了物品的特点,且每一个维度相互对应,两个向量的内积表示用户对该物品的喜好程度。但是我们观测到的评分数据大部分都是都是和用户或物品无关的因素产生的效果,即有... 阅读全文
posted @ 2015-10-12 17:16 加拿大小哥哥 编辑
摘要:一、矩阵分解概述 我们都知道,现实生活中的User-Item矩阵极大(User数量极大、Item数量极大),而用户的兴趣和消费能力有限,对单个用户来说消费的物品,产生评分记录的物品是极少的。这样造成了User-Item矩阵含有大量的空值,数据极为稀疏。矩阵分解的核心思想认为用户的兴趣只受少数几个因... 阅读全文
posted @ 2015-10-12 16:26 加拿大小哥哥 编辑
摘要:查如何事先确定聚类簇数目发现的,是对狄利克雷过程的(DP)的一种解释。 假设一个中国餐馆有无限的桌子,第一个顾客到来之后坐在第一张桌子上。第二个顾客来到可以选择坐在第一张桌子上,也可以选择坐在一张新的桌子上,假设第n+1个顾客到来的时候,已经有k张桌子上有顾客了,分别坐了n1,n2,...,n... 阅读全文
posted @ 2015-08-01 20:47 加拿大小哥哥 编辑
摘要:一.算法概述 DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一个比较有代表性的基于密度的聚类算法。与划分和层次聚类方法不同,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的... 阅读全文
posted @ 2015-07-05 22:27 加拿大小哥哥 编辑