文章档案「2013年10月」 - berkeleysong

10 2013 档案

计算机科学中最重要的32个算法

摘要：转自：http://www.infoq.com/cn/news/2012/08/32-most-important-algorithmsA* 搜索算法——图形搜索算法，从给定起点到给定终点计算出路径。其中使用了一种启发式的估算，为每个节点估算通过该节点的最佳路径，并以之为各个地点排定次序。算法以得到的次序访问这些节点。因此，A*搜索算法是最佳优先搜索的范例。集束搜索（又名定向搜索，Beam Search）——最佳优先搜索算法的优化。使用启发式函数评估它检查的每个节点的能力。不过，集束搜索只能在每个深度中发现最前面的m个最符合条件的节点，m是固定数字——集束的宽度。二分查找（Binary Sea 阅读全文

posted @ 2013-10-20 11:21 berkeleysong 阅读(133) 评论(0) 推荐(0)

MapReduce实现大矩阵乘法

摘要：http://blog.csdn.net/xyilu/article/details/9066973引言何为大矩阵？Excel、SPSS，甚至SAS处理不了或者处理起来非常困难，需要设计巧妙的分布式方法才能高效解决基本运算（如转置、加法、乘法、求逆）的矩阵，我们认为其可被称为大矩阵。这意味着此种矩阵的维度至少是百万级的、经常是千万级的、有时是亿万级的。举个形象的栗子。至2012年12月底，新浪微博注册用户数超5亿，日活跃用户4629万[1]，如果我们要探索这4000多万用户可以分成哪些类别，以便深入了解用户共同特征，制定精准营销策略，势必要用到聚类相关的算法（比如新浪大牛张俊林就利用聚类算法来阅读全文

posted @ 2013-10-17 15:14 berkeleysong 阅读(232) 评论(0) 推荐(0)

机器学习相关——协同过滤

摘要：http://www.cnblogs.com/luchen927/archive/2012/02/01/2325360.html在现今的推荐技术和算法中，最被大家广泛认可和采用的就是基于协同过滤的推荐方法。本文将带你深入了解协同过滤的秘密。下面直接进入正题1 什么是协同过滤协同过滤是利用集体智慧的一个典型方法。要理解什么是协同过滤 (Collaborative Filtering, 简称 CF)，首先想一个简单的问题，如果你现在想看个电影，但你不知道具体看哪部，你会怎么做？大部分的人会问问周围的朋友，看看最近有什么好看的电影推荐，而我们一般更倾向于从口味比较类似的朋友那里得到推荐。这就是协同过阅读全文

posted @ 2013-10-08 14:02 berkeleysong 阅读(106) 评论(0) 推荐(0)

推荐系统入门实践：世纪佳缘会员推荐（完整版）

摘要：http://www.cnblogs.com/supersteven/archive/2012/09/01/2666565.html版本作者联系日期1.0周巍然weiran.chow@gmail.com201207232.0严程supersteven198701@gmail.com201208213.0严程supersteven198701@gmail.com20120831摘要：本文以2011年举办的第一届数据挖掘邀请赛的"世纪佳缘会员推荐"赛题为例，尝试了5种排序方法来为新注册会员推荐容易受到亲睐的老会员。先看5种排序方法的测试结果，以便朋友们有针对性地浏览本文。基阅读全文

posted @ 2013-10-05 22:22 berkeleysong 阅读(513) 评论(0) 推荐(0)

[收藏]统计中的置信和惩罚

摘要：http://www.zhizhihu.com/html/y2013/4151.html如何对样本数目加惩罚来保证置信，样本数目很少的时候，统计结果往往不置信。看了阮一峰老师的博客和《How Not To Sort By Average Rating》，还有论文《How to Count Thumb-Ups and Thumb-Downs》，还有wiki上的各种置信区间《confidence interval》，了解了一些方法，例如：一、威尔逊置信区间（Score = Lower bound of Wilson score confidence interval for a Bernoulli 阅读全文

posted @ 2013-10-05 22:09 berkeleysong 阅读(1715) 评论(0) 推荐(0)

谷歌如何从网络的大海里捞到针

摘要：来源：http://www.mysanco.com/index.php?class=wenku&action=wenku_item&id=44想象一个含有250亿份文件，却没有集中管理机构和馆员的图书馆，而且任何人都可以在任何时间添加新的文件而不需要通知其他人。一方面你可以确定，这庞大的文件堆中有一份文件含有对你至关重要的信息，而另一方面，你又像我们中的大多数人那样没有耐心，想要在几秒钟之内就找到这条信息。你有什么办法呢？摆在你面前的这个难题看起来似乎无法解决。而这个文件堆跟万维网（World Wide Web）其实相差无几，后者就是一个超大的、高度混乱的以各种形式存放的文件阅读全文

posted @ 2013-10-02 14:37 berkeleysong 阅读(176) 评论(0) 推荐(0)