随笔分类 - Recommender System
记录Recommender System的学习笔记
摘要:题目地址:Exercise: Logistic Regression题目概要:某个高中有80名学生,其中40名得到了大学的录取,40名没有被录取。x中包含80名学生两门标准考试的成绩,y中包含学生是否被录取(1代表录取、0代表未录取)。过程:1、加载试验数据,并为x输入添加一个偏置项。x=load('ex4x.dat');y=load('ex4y.dat');x=[ones(length(y),1) x];2、绘制数据分布 % find returns the indices of the% rows meeting the specified conditio
阅读全文
摘要:logistic regression用于二分类的情况。即Y∈{0,1}。模型对于分布形式如下的样本:如果使用linear regression的话,可以拟合出一条类似下图的曲线:通过增加一个阈值,我们也可以做二分类,例如,假定阈值为0.5:那么,可以写成:但是这种方式在面对类似这样的数据分布时,会有问题:图中的回归线为了拟合到右边的3个奇异点而变得非常斜,这不是我们希望看到的。为此,我们为logistic regression另外提出了一种模型:linear regression的计算模型是:hθ(x)=θTxlogistic regression的计算模型是:hθ(x)=g(θTx)注意:
阅读全文
摘要:题目地址: http://openclassroom.stanford.edu/MainFolder/DocumentPage.php?course=DeepLearning&doc=exercises/ex2/ex2.html题目给出的数据是一组2-8岁男童的身高。x是年龄,y是身高。样本数m=50.使用gradient descent来做线性回归。step1:数据准备。加载数据:>> x=load('ex2x.dat');>> y=load('ex2y.dat');可视化数据:figure % open a new figur
阅读全文
摘要:Normal Equations 的由来假设我们有m个样本。特征向量的维度为n。因此,可知样本为{(x(1),y(1)), (x(2),y(2)),... ..., (x(m),y(m))},其中对于每一个样本中的x(i),都有x(i)={x1(i), xn(i),... ...,xn(i)}。令 H(θ)=θ0 + θ1x1 +θ2x2 +... + θnxn,则有若希望H(θ)=Y,则有X · θ = Y我们先来回忆一下两个概念:单位矩阵 和 矩阵的逆,看看它们有什么性质。(1)单位矩阵EAE=EA=A(2)矩阵的逆A-1要求:A必须为方阵性质:AA-1=A-1A=E再来看看式子
阅读全文
摘要:视频地址: https://class.coursera.org/neuralnets-2012-001/lecture/indexPPT下载: https://d396qusza40orc.cloudfront.net/neuralnets/lecture_slides%2Flec3.pptx笔记:还没整理成电子版,先放上来纸质版。参考资料:《Dropout: A simple and effective way to improve neural networks》 Geoffrey E Hinton, George E Dahl 2012《Early stopping》 wikipedi
阅读全文
摘要:介绍了三种学习类型:监督型、增强型、非监督型lecture中只涵盖了监督型和非监督型,对于加强型的只有简要内容。
阅读全文
摘要:摘自 Neural Networks for Machine Learning by Geoffrey Hinton (coursera课程)
阅读全文
摘要:autoassociation是一个很有趣的可以自己计算权重的算法。假设输入向量为X,输出向量为Y;权重由向量W来表示,那么autoassociation的计算过程为:①计算 Wx = W * X;②计算 error = X - Wx;③计算 ΔW = η*error*xT④计算 Wnew = W + ΔW截取PPT中的介绍:PPT中给出的例子PPT里面给的例子是X=Y的情况,在这种情况下,该算法的matlab实现是:function [weight,f]=heterassociation(x,times,n)w = zeros(1,n);step = 0.1;wx = w.*x;for i
阅读全文
摘要:使用神经网络来帮助建立搜索关键词所响应的页面对于搜索引擎而已,每一位用户可以通过只点击某条搜索结果,而不选择点击其他内容,从而向引擎及时提供有关于他对搜索结果喜好程度的信息。为此,我们可以构造一个神经网络,向该网络提供:查询的单词,返回给用户的搜索结果,以及用户的点击决策,然后对该神经网络加以训练。图1 多层感知机由多层神经元构成的网络称为多层感知机(multilayer perception,MLP)。为什么我们不是简单地记录下查询条件以及每个搜索结果被点击的次数,而要使用如此复杂的神经网络呢?因为神经网络的威力在于,它能根据与其他查询结果相似度的情况,对以前从未见过的查询结果给出合理的猜测
阅读全文
摘要:搜索与排名1、全文搜索引擎,允许人们在大量文档中搜索一些列单词,并根据文档与这些单词的关联程度对结果进行排名。2、词干提取算法(stemming algorithm)词干提取算法试图将单词转换成对应的词干。例如,将单词“indexing”转换成“index”,这样当人们在搜索“index”时,也同样会得到包含indexing单词的文档。3、基于内容的排名法(content-based ranking)content-based ranking是根据网页的内容,利用某些可行的度量方式来对查询结果进行判断的。常用的评价度量有三个:①单词频度被查询的单词在文档中出现的次数,它可以帮助我们判断该单词与
阅读全文
摘要:1、聚类算法的目的是采集数据,然后从中找出不同的群组。2、Universal Feed Parser可以方便地解析RSS订阅源,即从RSS或Atom订阅源中得到标题、链接和文章的内容。3、皮尔逊相关度其实判断的是两组数据与某条直线的拟合程度,当两者完全匹配时,计算结果为1.0,当两者毫无关系时,计算结果为0.0.4、分级聚类分级聚类的结果会产生一棵树:分级聚类虽然会返回一棵形象直观的树,但这种方法有两个缺点。在没有额外指定的情况下,树形视图不会真正将数据拆分成不同的组,而且该算法的计算量惊人。因为我们必须计算每两个数据项之间的关系,并且在合并项之后这些关系还得再计算,所以在处理大规模的数据集时
阅读全文
摘要:会议We refer specifically to ACM Recommender Systems (RecSys), established in 2007 and now the premier annual event in recommender technology research and applications.In addition, sessions dedicated to RSs are frequently included in the more traditional conferences in the area of data bases, informat
阅读全文
摘要:1、概述Collaborative filtering methods are based on collecting and analyzing a large amount of information on users’ behaviors, activities or preferences and predicting what users will like based on their similarity to other users. 通过收集和分析大量的用户行为、活动以及评分记录来发现跟该用户兴趣相似的其他用户,借由其他用户的行为记录来预测用户会喜欢什么东西。A key a
阅读全文
摘要:毕设里面要用到个性化的信息推荐,因此接触到Recommender system。了解一个事物,总是从wikipedia开始。Recommender systems is a subclass of information filtering system that seek to predict the 'rating' or 'preference' that a user would give to an item (such as music, books, or movies) or social element (e.g. people or grou
阅读全文