随笔分类 - LBSN
摘要:目前看到的比较全面的分类算法,总结的还不错. 主要分类方法介绍解决分类问题的方法很多[40-42] ,单一的分类方法主要包括:决策树、贝叶斯、人工神经网络、K-近邻、支持向量机和基于关联规则的分类等;另外还有用于组合单一分类方法的集成学习算法,如Bagging和Boosting等。 (1...
阅读全文
摘要:RTB —— Real Time Bidding 的简称,就是实时竞价。跟传统购买形式相比,RTB是在每一个广告展示曝光的基础上进行竞价,就是每一个PV都会进行一次展现竞价,谁出价高,谁的广告就会被这个PV看到。 有个问题出现了,为什么广告主即买方会为了一个广告PV(页面浏览量)而竞相出价呢,这个广...
阅读全文
摘要:题目乍一看,无从下手,仔细想了一下,原来只需要判断两个GPS点的直线距离是否 500) { return true; } return false; } 待续
阅读全文
摘要:谱聚类(Spectral Clustering, SC)是一种基于图论的聚类方法——将带权无向图划分为两个或两个以上的最优子图,使子图内部尽量相似,而子图间距离尽量距离较远,以达到常见的聚类的目的。其中的最优是指最优目标函数不同,可以是割边最小分割——如图1的Smallest cut(如后文的Min...
阅读全文
摘要:4.1、摘要 在前面的文章中,介绍了三种常见的分类算法。分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应。但是很多时候上述条件得不到满足,尤其是在处理海量数据的时候,如果通过预处理使得数据满足分类算法的要求,则代价非常大,这时候可以考虑使用聚类算...
阅读全文
摘要:基本介绍: topic model,主题模型介绍:http://www.cnblogs.com/lixiaolun/p/4455764.html 以及(http://blog.csdn.net/hxxiaopei/article/details/7617838) topic model本质上就一...
阅读全文
摘要:摘要: 两篇文档是否相关往往不只决定于字面上的词语重复,还取决于文字背后的语义关联。对语义关联的挖掘,可以让我们的搜索更加智能化。本文着重介绍了一个语义挖掘的利器:主题模型。主题模型是对文字隐含主题进行建模的方法。它克服了传统信息检索中文档相似度计算方法的缺点,并且能够在海量互联网数据中自动寻找出...
阅读全文
摘要:喜欢手写学习,记忆深刻(字丑勿喷!)。计算过程的代码如下:public class PageRank{ private static double m[][]={ { 0 , 0.5 , 1 , 0 }, {0.333333333 , 0 , 0 , 0.5}, {0....
阅读全文
摘要:例子:http://www.mathchina.net/dvbbs/dispbbs.asp?boardid=4&Id=3673
阅读全文
摘要:1.均方根误差,它是观测值与真值偏差的平方和观测次数n比值的平方根,在实际测量中,观测次数n总是有限的,真值只能用最可信赖(最佳)值来代替.方根误差对一组测量中的特大或特小误差反映非常敏感,所以,均方根误差能够很好地反映出测量的精密度。均方根误差,当对某一量进行甚多次的测量时,取这一测量列真误差的均...
阅读全文
摘要:AUC是一种用来度量分类模型好坏的一个标准。 ROC分析是从医疗分析领域引入了一种新的分类模型performance评判方法。 ROC的全名叫做Receiver Operating Characteristic,其主要分析工具是一个画在二维平面上的曲线——ROC curve。平面的横坐标是false
阅读全文
摘要:参考:http://en.wikipedia.org/wiki/Discounted_cumulative_gainNormalized Discounted Cumulative Gain:一种对搜索引擎或相关程序有效性的度量。2个假设: 1.强相关的文档出现在结果列表越靠前(rank越高)越有...
阅读全文