berkeleysong

Mapreduce 通俗入门

摘要： Google MapReduce中文版译者: alex http://www.open-open.com/lib/view/open1328763069203.html摘要MapReduce是一个编程模型，也是一个处理和生成超大数据集的算法模型的相关实现。用户首先创建一个Map函数处理一个基于 key/value pair的数据集合，输出中间的基于key/value pair的数据集合；然后再创建一个Reduce函数用来合并所有的具有相同中间key值的中间value值。现实世界中有很多满足上述处理模型的例子，本论文将详细描述这个模型。MapReduce架构的程序能够在大量的普通配置的计算机上阅读全文

posted @ 2013-08-24 17:54 berkeleysong 阅读(384) 评论(0) 推荐(0) 编辑

EM 算法通俗介绍

摘要：文章写的很通俗，甚至有点俗了！http://www.cfanz.cn/index.php?c=article&a=read&id=52957从最大似然到EM算法浅解zouxy09@qq.comhttp://blog.csdn.net/zouxy09 机器学习十大算法之一：EM算法。能评得上十大之一，让人听起来觉得挺NB的。什么是NB啊，我们一般说某个人很NB，是因为他能解决一些别人解决不了的问题。神为什么是神，因为神能做很多人做不了的事。那么EM算法能解决什么问题呢？或者说EM算法是因为什么而来到这个世界上，还吸引了那么多世人的目光。我希望自己能通俗地把它理解或者说明白，但是阅读全文

posted @ 2013-08-13 21:10 berkeleysong 阅读(315) 评论(0) 推荐(0) 编辑

数据挖掘牛人的微博圈子

摘要：最近一直在玩微博，并在上面认识了好多大牛。每当大牛发表关于技术的状态，我这种菜鸟都能从中学到很多的东西。然后自己就突发奇想，如果能够从所有的微博用户中，找出来这些大牛，这样信息的来源不就可以大大的扩展了嘛。于是，就试着用新浪微博的API写了一个小程序，根据一些我所知道的关于数据挖掘领域中并且在微博中很活跃的两三个人入手，从他们的关注与粉丝圈子中慢慢的扩展，最终可以找到挺多的相同领域的人。比如：我试着输入三个在微博中比较活跃的数据挖掘的强人：百度_**，还是**，**_机器学习。通过他们之间的关系的判断，他们的粉丝之间的关系的判断，他们好友的关系的判断，他们好友与粉丝之间关系的判断，... 阅读全文

posted @ 2013-08-12 12:14 berkeleysong 阅读(397) 评论(1) 推荐(1) 编辑

svm 算法通俗介绍

摘要： http://blog.csdn.net/v_july_v/article/details/7624837作者：July、pluskid ；致谢：白石、JerryLead出处：结构之法算法之道blog。前言第一层、了解SVM 1.0、什么是支持向量机SVM 1.1.、线性分类 1.1.1、分类标准 1.1.2、1或-1分类标准的起源：logistic回归 1.1.3、形式化标示类 1.2、线性分类的一个例子 1.3、函数间隔Functional margin与几何间隔Geometrical margin 1.3.1、函数间隔Functional margin 1.3.2、点到超平面的... 阅读全文

posted @ 2013-08-11 13:32 berkeleysong 阅读(38506) 评论(1) 推荐(1) 编辑

C++ 数组参数传递

摘要： http://www.cnblogs.com/macula7/archive/2009/04/14/1960828.html#include//传递数组参数的几种方式void printValues(const int a [10]){ for(int i=0;i!=10;i++) cout<<a[i]<<endl;} void printValues2(int a [10]){ for(int i=0;i!=10;i++) cout<<a[i]<<endl; a[5]=100;}void printValues3(int (&a) [1 阅读全文

posted @ 2013-08-10 16:32 berkeleysong 阅读(153) 评论(0) 推荐(0) 编辑

一些公司对quantitative的要求

摘要：来自日月光华BBS：Company:UBSAGJobTitle:QuantitativeDevelopers/Analysts(EntryLevel,MultiplePositions)Location:Shanghai,ChinaUBS'sIBQuantitativeAnalysisGroupatShanghaiislookingforanumberoffreshgraduatesinexpandingitsquantitativeanalysisservicetotheInvestmentBank'sbusinessunitsaroundtheworld.Weencoura 阅读全文

posted @ 2013-08-10 10:45 berkeleysong 阅读(422) 评论(0) 推荐(0) 编辑

希望学会的相关课程

摘要：智能算法类:模式识别机器学习数据挖掘概率统计类：数理统计随机过程概率论多元统计数学优化类：线性优化非线性优化最优控制语言类：C++ primerC++ 数据结构算法导论计算数学类：数值分析矩阵计算计算机课程：分布式计算密集数据计算数据库阅读全文

posted @ 2013-08-10 10:44 berkeleysong 阅读(127) 评论(0) 推荐(0) 编辑

贝叶斯理论-通俗文章

摘要： http://mindhacks.cn/2008/09/21/the-magical-bayesian-method/概率论只不过是把常识用数学公式表达了出来。——拉普拉斯记得读本科的时候，最喜欢到城里的计算机书店里面去闲逛，一逛就是好几个小时；有一次，在书店看到一本书，名叫贝叶斯方法。当时数学系的课程还没有学到概率统计。我心想，一个方法能够专门写出一本书来，肯定很牛逼。后来，我发现当初的那个朴素归纳推理成立了——这果然是个牛逼的方法。——题记目录0. 前言1. 历史 1.1 一个例子：自然语言的二义性 1.2 贝叶斯公式2. 拼写纠正3. 模型比较与贝叶斯奥卡姆剃刀 3.1 再访拼写纠正 3 阅读全文

posted @ 2013-08-10 10:43 berkeleysong 阅读(587) 评论(0) 推荐(0) 编辑

朴素贝叶斯

摘要： http://zh.wikipedia.org/wiki/%E6%9C%B4%E7%B4%A0%E8%B4%9D%E5%8F%B6%E6%96%AF%E5%88%86%E7%B1%BB%E5%99%A8朴素贝叶斯概率模型理论上，概率模型分类器是一个条件概率模型。独立的类别变量有若干类别，条件依赖于若干特征变量,,...,。但问题在于如果特征数量较大或者每个特征能取大量值时，基于概率模型列出概率表变得不现实。所以我们修改这个模型使之变得可行。贝叶斯定理有以下式子：用朴素的语言可以表达为：实际中，我们只关心分式中的分子部分，因为分母不依赖于而且特征的值是给定的，于是分母可以认为是一个常数。这样分子阅读全文

posted @ 2013-08-10 10:40 berkeleysong 阅读(304) 评论(0) 推荐(0) 编辑

C++ const常见用法

摘要：转载自：http://blog.csdn.net/Eric_Jo/article/details/4138548，是我见过的最好的C++ const 说明1、定义常量(1)const修饰变量，以下两种定义形式在本质上是一样的。它的含义是：const修饰的类型为TYPE的变量value是不可变的。TYPE const ValueName = value;const TYPE ValueName = value;(2)将const改为外部连接,作用于扩大至全局,编译时会分配内存,并且可以不进行初始化,仅仅作为声明,编译器认为在程序其他地方进行了定义.extend const int ValueN 阅读全文

posted @ 2013-08-10 10:39 berkeleysong 阅读(133) 评论(0) 推荐(0) 编辑