10 2013 档案

计算机科学中最重要的32个算法
摘要:转自:http://www.infoq.com/cn/news/2012/08/32-most-important-algorithmsA* 搜索算法——图形搜索算法,从给定起点到给定终点计算出路径。其中使用了一种启发式的估算,为每个节点估算通过该节点的最佳路径,并以之为各个地点排定次序。算法以得到的次序访问这些节点。因此,A*搜索算法是最佳优先搜索的范例。集束搜索(又名定向搜索,Beam Search)——最佳优先搜索算法的优化。使用启发式函数评估它检查的每个节点的能力。不过,集束搜索只能在每个深度中发现最前面的m个最符合条件的节点,m是固定数字——集束的宽度。二分查找(Binary Sea 阅读全文

posted @ 2013-10-20 11:21 berkeleysong 阅读(133) 评论(0) 推荐(0)

MapReduce实现大矩阵乘法
摘要:http://blog.csdn.net/xyilu/article/details/9066973引言何为大矩阵?Excel、SPSS,甚至SAS处理不了或者处理起来非常困难,需要设计巧妙的分布式方法才能高效解决基本运算(如转置、加法、乘法、求逆)的矩阵,我们认为其可被称为大矩阵。这意味着此种矩阵的维度至少是百万级的、经常是千万级的、有时是亿万级的。举个形象的栗子。至2012年12月底,新浪微博注册用户数超5亿,日活跃用户4629万[1],如果我们要探索这4000多万用户可以分成哪些类别,以便深入了解用户共同特征,制定精准营销策略,势必要用到聚类相关的算法(比如新浪大牛张俊林就利用聚类算法来 阅读全文

posted @ 2013-10-17 15:14 berkeleysong 阅读(232) 评论(0) 推荐(0)

机器学习相关——协同过滤
摘要:http://www.cnblogs.com/luchen927/archive/2012/02/01/2325360.html在现今的推荐技术和算法中,最被大家广泛认可和采用的就是基于协同过滤的推荐方法。本文将带你深入了解协同过滤的秘密。下面直接进入正题1 什么是协同过滤协同过滤是利用集体智慧的一个典型方法。要理解什么是协同过滤 (Collaborative Filtering, 简称 CF),首先想一个简单的问题,如果你现在想看个电影,但你不知道具体看哪部,你会怎么做?大部分的人会问问周围的朋友,看看最近有什么好看的电影推荐,而我们一般更倾向于从口味比较类似的朋友那里得到推荐。这就是协同过 阅读全文

posted @ 2013-10-08 14:02 berkeleysong 阅读(106) 评论(0) 推荐(0)

推荐系统入门实践:世纪佳缘会员推荐(完整版)
摘要:http://www.cnblogs.com/supersteven/archive/2012/09/01/2666565.html版本作者联系日期1.0周巍然weiran.chow@gmail.com201207232.0严程supersteven198701@gmail.com201208213.0严程supersteven198701@gmail.com20120831摘要: 本文以2011年举办的第一届数据挖掘邀请赛的"世纪佳缘会员推荐"赛题为例,尝试了5种排序方法来为新注册会员推荐容易受到亲睐的老会员。 先看5种排序方法的测试结果,以便朋友们有针对性地浏览本文。基 阅读全文

posted @ 2013-10-05 22:22 berkeleysong 阅读(513) 评论(0) 推荐(0)

[收藏]统计中的置信和惩罚
摘要:http://www.zhizhihu.com/html/y2013/4151.html如何对样本数目加惩罚来保证置信,样本数目很少的时候,统计结果往往不置信。看了阮一峰老师的博客和《How Not To Sort By Average Rating》,还有论文《How to Count Thumb-Ups and Thumb-Downs》,还有wiki上的各种置信区间《confidence interval》,了解了一些方法,例如:一、威尔逊置信区间(Score = Lower bound of Wilson score confidence interval for a Bernoulli 阅读全文

posted @ 2013-10-05 22:09 berkeleysong 阅读(1715) 评论(0) 推荐(0)

谷歌如何从网络的大海里捞到针
摘要:来源 :http://www.mysanco.com/index.php?class=wenku&action=wenku_item&id=44想象一个含有250亿份文件,却没有集中管理机构和馆员的图书馆,而且任何人都可以在任何时间添加新的文件而不需要通知其他人。一方面你可以确定,这庞大的文件堆中有一份文件含有对你至关重要的信息,而另一方面,你又像我们中的大多数人那样没有耐心,想要在几秒钟之内就找到这条信息。你有什么办法呢?摆在你面前的这个难题看起来似乎无法解决。而这个文件堆跟万维网(World Wide Web)其实相差无几,后者就是一个超大的、高度混乱的以各种形式存放的文件 阅读全文

posted @ 2013-10-02 14:37 berkeleysong 阅读(176) 评论(0) 推荐(0)

导航