摘要:
simhash是google用来处理海量文本去重的算法。 google出品,你懂的。 simhash最牛逼的一点就是将一个文档,最后转换成一个64位的字节,暂且称之为特征字,然后判断重复只需要判断他们的特征字的距离是不是 110001这个就很简单啦,正1负0。到此,如何从一个doc到一个simhas... 阅读全文
2014年6月13日
摘要:
整理归纳一下《推荐系统实践》和《推荐系统导论》两本书的知识点,文中排版格式可能会有点乱,如有问题请指正。OK,闲话不说,先上2张图 对推荐系统的建模数据进行分析,代表型数据:1)无上下文的隐形反馈数据;2) 无上下文的显性反馈数据;3) 有上下文的隐形反馈数据;4)有小上下文的显性反馈数据,其中... 阅读全文
摘要:
本文从互联网收集并整理了推荐系统的架构,其中包括一些大公司的推荐系统框架(数据流存储、计算、模型应用),可以参考这些资料,取长补短,最后根据自己的业务需求,技术选型来设计相应的框架。后续持续更新并收集。。。 图1 界面UI那一块包含3块东西:1) 通过一定方式展示推荐物品(物品标题、缩略图... 阅读全文
2014年6月12日
摘要:
深度学习word2vec笔记之基础篇 声明:1)该博文是多位博主以及多位文档资料的主人所无私奉献的论文资料整理的。具体引用的资料请看参考文献。具体的版本声明也参考原文献2)本文仅供学术交流,非商用。所以每一部分具体的参考资料并没有详细对应,更有些部分本来就是直接从其他博客复制过来的。如果某部分不小心... 阅读全文
摘要:
(转)深度学习word2vec笔记之算法篇声明:1)该博文是Google专家以及多位博主所无私奉献的论文资料整理的。具体引用的资料请看参考文献。具体的版本声明也参考原文献2)本文仅供学术交流,非商用。所以每一部分具体的参考资料并没有详细对应,更有些部分本来就是直接从其他博客复制过来的。如果某部分不小... 阅读全文
2014年2月25日
摘要:
一、特征词选择与特征词权重关系开始学文本分类的时候经常要搞晕特征词选择和特征词权重这两个东西,因为两者都要进行量化,很容易认为特征词选择就是计算权重,因此我认为有必要先搞清楚这两个概念。两者的区别:特征词选择是为了降低文本表示的维度,而特征词权重是为了表示文本表示中每一个特征项的重要程度。特征词的选择算法有:文本特征选择的算法有基于文档频率(Document Frequency)、信息增益(Information Gain, IG)、开方拟和检验方法(CHI统计)、互信息(mutual Information)、潜在语义分析LSA、期望值交叉算熵、文本证据权、term strength(TS) 阅读全文
2014年2月10日
摘要:
本文地址为:http://www.cnblogs.com/kemaswill/,作者联系方式为kemaswill@163.com,转载请注明出处。 机器学习的目标是学得一个泛化能力比较好的模型。所谓泛化能力,是指根据训练数据训练出来的模型在新的数据上的性能。这就牵扯到机器学习中两个非常重要的概念:欠拟合和过拟合。如果一个模型在训练数据上表现非常好,但是在新数据集上性能很差,就是过拟合,反之,如果在训练数据集和新数据集上表现都很差,就是欠拟合,如下图所示 其中蓝叉点表示训练数据,蓝色的线表示学到的模型。左边学到的模型不能很好的描述训练数据,模型过于简单,是欠拟合(Under-fitting)。中 阅读全文
2014年1月27日
摘要:
原题有N个木桩,高度分别为1到N。你现在要将木桩排列为一行,当你从左边看的时候,只看到L个木桩(因为,一些高的木桩会挡住矮的木桩);从右边看时,只看到R个木桩。给定N、L、R,你该如何排列木桩呢?例1:N=3,L=2,R=1,可行的排列方案只有{2,1,3}。例2:N=3,L=2,R=2,可行的排列方案有{1,3,2}{2,3,1}分析开始排列木桩的时候,应该如何选取第一根木桩呢?一个很直接的选择就是先确定最高的木桩的位置,也就是N。因为,无论从左到右,还是从右到左看,都要到最高停下来。确定了最高的木桩之后,无论从哪一边看,都至少有一个木桩。接下来,该如何处理?想必大家已经想到了,开始递归呗。 阅读全文
摘要:
原题有n对喜鹊。每一对可以表示为(x,y),x、y是喜鹊的编号,并且任意一对,x总是小于y。(c,d)可以连接在(a,b)之后,当且仅当b< c 。多对喜鹊连接在一起,就构建成了鹊桥。给定n对喜鹊,请你构建最长的鹊桥,来帮助有情人相会。分析首先,要理解这个题目的意思。具体例子说明,给定下面的例子:(15,40) (5,8) (1,10) (30,31) (34,35) (9,20) (36,37) (2,4)其中,(2,4)和(5,8)能够连接起来,(5,8)和(9,20)能够连接起来,则它们可以都连接起来,为(2,4)(5,8)(9,20)。这一段鹊桥,长度为3。依次类推,还有... 阅读全文