摘要: 转自:http://www.vanjor.org/blog/2010/10/cross-validation/交叉验证(Cross-Validation):有时亦称循环估计, 是一种统计学上将数据样本切割成较小子集的实用方法。于是可以先在一个子集上做分析, 而其它子集则用来做后续对此分析的确认及验证。 一开始的子集被称为训练集。而其它的子集则被称为验证集或测试集。交叉验证对于人工智能,机器学习,模式识别,分类器等研究都具有很强的指导与验证意义。基本思想是把在某种意义下将原始数据(dataset)进行分组,一部分做为训练集(train set),另一部分做为验证集(validation set 阅读全文
posted @ 2013-06-18 09:48 huangshanshan 阅读(1215) 评论(0) 推荐(0) 编辑
摘要: 这些概念以前老是犯糊涂,今天整清楚。摘要:P: Polynomial SolvableNP: Non-determinstic Polynomial Solvable0)词语解释:Polynomial 【数】多项式的; 由平方,立方等常数次方或者更小的运算符和+,-,*,/等构成的式子及其这种式子的和Non-deterministic: 非确定性的;Turing-machine: 图灵机; 英国数学家图灵提出的计算模型, 一个两端无限长的由小格子组成的带子,每个格子可以存储一个数,一个可以在带子左右移动的游标或者指针或者不如叫磁头(head), 磁头可读或修改格子里的数。 下面默认说的是确定性 阅读全文
posted @ 2013-06-18 09:44 huangshanshan 阅读(3186) 评论(0) 推荐(1) 编辑
摘要: 冒泡排序procedure bubbleSort(A[1-n])Begin for i=1 to n-1 for j=n down to i+1 do if A[j-1]>A[j] then begin temp=A[j-1] A[j-1]=A[j] A[j]=temp end end插入排序void insertion_sort(void){ int i, j, key; for (j = 1; j = 0 && a[i] > key) { a[i+1] = a[i]; i--; } a[i+1] = key; }}归并排序#include #defin... 阅读全文
posted @ 2013-06-18 09:40 huangshanshan 阅读(260) 评论(0) 推荐(0) 编辑
摘要: 1. 缺少数据对于推荐系统来说,可能最大的问题就是需要大量的数据才能产生推荐结果。这也是为什么那些表现最突出的推荐系统都是来自于有数据的大公司,比如Google,Amazon,Netflix,Last.fm。正如Strands公司在他的演讲中提到的那样,一个好的推荐系统首先要获得内容数据,接着必须获得和分析用户数据(行为事件),最后才是算法的工作。内容和用户数据越多,获得好的推荐的比率就会越高。但是这也是一个“鸡和蛋”的问题——推荐系统的目的就是带来更多的用户点击和购买,而好的推荐系统需要大量的用户,你才能为推荐系统提供需要的数据。2. 变化的数据这个问题曾经被智能推荐系统公司 Clickto 阅读全文
posted @ 2013-06-18 09:33 huangshanshan 阅读(533) 评论(0) 推荐(0) 编辑
摘要: 转自http://blog.csdn.net/pennyliang/article/details/6838956Clustering coefficient的定义有两种;全局的和局部的。全局的算法基于triplet。triplet分为开放的triplet(open triplet)和封闭的triplet(closed triplet)两种(A triplet is three nodes that are connected by either two (open triplet) or three (closed triplet) undirected ties)。可以用下面结构定义一个t 阅读全文
posted @ 2013-06-18 09:26 huangshanshan 阅读(38057) 评论(0) 推荐(0) 编辑
摘要: 最近一个月来一直在看Google排序的核心算法---PageRank排序算法[1][2],在多篇论文中涉及到图论、马尔可夫链的相关性质说明与应用[3][4][5],而最为关键,一直让我迷惑的一句话是"A stochastic matrix has principal/primary eigenvalue 1"[3][4][5][6][7][8]。可能对于系统学习过矩阵理论的人,它很平淡,不值得单独拿出来讨论或者说明。而我在此不得不承认自己的无知。尽管在高等代数中学习过关于矩阵性质的一些讨论,但从来没有接触过所谓的随机矩阵(Stochastic Matrix),更不要说其性质 阅读全文
posted @ 2013-06-18 09:17 huangshanshan 阅读(21842) 评论(1) 推荐(6) 编辑
摘要: 1:Mean reciprocal rank(MRR)平均倒排序值 把标准答案在模型给出结果的排序位置的倒数作为它的准确度,再对所有的问题求平均。2:Mean average precision(MAP)平均准确率 单个主题的平均准确率是每篇相关文档检索出后的准确率的平均值。主集合的平均准确率(MAP)是每个主题的平均准确率的平均值。MAP 是反映系统在全部相关文档上性能的单值指标。系统检索出来的相关文档越靠前(rank 越高),MAP就可能越高。如果系统没有返回相关文档,则准确率默认为0。例如:假设有两个主题,主题1有4个相关网页,主题2有5个相关网页。某系统对于主题1检索出4个相关网页,其 阅读全文
posted @ 2013-06-18 09:11 huangshanshan 阅读(1662) 评论(0) 推荐(0) 编辑