摘要:
背景 直观上理解,随机森林通过在构建决策树的过程中将一些行为随机化(比如特征选取,样本选取),产生许多决策树,然后以这些决策树的结果作为投票,将投票最多的预测作为最终结果。随机化的作用是为了减小单个决策树偏倚。 基本思路 两个参数:随机树个数n和每次选取的特征数m。 在构建每一个决策树时,首先有放回的进行N次抽样,N为训练集大小。可以证明,三分之二的样本会选取出来,剩下的三分... 阅读全文
摘要:
记要今天在计算分类模型自行区间时,用到了R中正太分布的qnorm函数,这里做简单记要,作为备忘。R中自带了很多概率分布的函数,如正太分布,二次分布,卡放分布,t分布等,这些分布的函数都有一个共性,每个分布拥有4个带有d,p,q,r前缀的函数。比如正太分布,有dnorm,pnorm,qnorm和rnorm。这几个前缀的意义如下:d Density的缩写,表示密度函数。举个例子,标准正太分布x=0对应的值可以用dnorm(0)计算p Probability的缩写,表示概率函数。举个例子,标准正太分布从负无穷大到0的概率,可以用pnorm(0)计算q Quantile的缩写,表示分位函数。举个例子, 阅读全文
摘要:
Hive中小表与大表关联(join)的性能分析 http://blog.sina.com.cn/s/blog_6ff05a2c01016j7n.html要点:重复度较小的表(比如纬度表)放在前面,可以使得reduce过程中的检查过程变少,提高效率一骑绝尘引发的思考–关于hive程序员是否需要学习mapreduce http://www.alidata.org/archives/1083要点:使用hive的程序员需要知道MR的原理,就好比使用Java的程序员也需要了解GC的原理 阅读全文
摘要:
本文目的到今天为止,Coursera上的课程Web Intelligence and Big Data[5]已经上到Week 3(从0开始计数,实际上是4周)。前几周讲了一些机器学习的算法,如LHS,PageRank,朴素贝叶斯分类器等。但是光有这些算法还不够,特别是在当前这种海量数据(Big Data)盛行的年代。所以,Week 3就聊到了一种通用的大数据处理解决方法 —— Map Reduce(后面简称MR)。此方法最初来自Google的一篇论文[1],现在用来指代一种编程方式,主要作用与大规模数据集(通常在1T以上)的并行计算(很多算法都可以用MR方式实现)。本周课程主要内容介绍了MR的 阅读全文
摘要:
问题背景 给出N个集合,找到相似的集合对,如何实现呢?直观的方法是比较任意两个集合。那么可以十分精确的找到每一对相似的集合,但是时间复杂度是O(n2)。当N比较小时,比如K级,此算法可以在接受的时间范围内完成,但是如果N变大时,比B级,甚至P级,那么需要的时间是不能够被接受的。比如N= 1B = 1,000,000,000。一台计算机每秒可以比较1,000,000,000对集合是否... 阅读全文
摘要:
本文目的最近温习了一下C++ STL中的algorithm库函数,记得上次看这些内容时,还在读书,可以追溯到2009年春天了(刚好4年J)。正所谓为“温故而知新,可以为师矣”。闲话少说,开始正文。算法库C++标准算法库中包含一些模版函数,用于执行基本的算法,比如for_each(遍历容器),random_shuffle(随机打乱容器)等。主要实现包含在头文件<algorthim>中,少量在<numeric>中。它是STL的三大核心组件之一,其他两个是容器(container,常用数据结构)和迭代器(Iterator,数据结构访问适配器)。设计思想:算法函数通过迭代器作用 阅读全文
摘要:
本文目的最近一段时间在Coursera上学习Data Analysis,里面有个assignment涉及到了决策树,所以参考了一些决策树方面的资料,现在将学习过程的笔记整理记录于此,作为备忘。算法原理决策树(Decision Tree)是一种简单但是广泛使用的分类器。通过训练数据构建决策树,可以高效的对未知的数据进行分类。决策数有两大优点:1)决策树模型可以读性好,具有描述性,有助于人工分析;2)效率高,决策树只需要一次构建,反复使用,每一次预测的最大计算次数不超过决策树的深度。如何预测先看看下面的数据表格:ID拥有房产(是/否)婚姻情况(单身,已婚,离婚)年收入(单位:千元)无法偿还债务(是 阅读全文
摘要:
本文目的最近在Coursera上学习Data Analysis,结合前一阵子阅读的《Head First Statistics》,发现好多计算方法都涉及了假设检验(Hypothesis Test,又称“显著性检验”,Significance Test),用于检验模型的显著性。如回归分析,检测估计量的系数;卡方检验(运用卡方分布)检验模型的优度拟合和变量独立性。所以,决定梳理一下相关知识,作为备忘。原理&方法个人理解,假设检验就是利用反证法和小概率事件对原假设(Null Hypothesis)和备选假设(Alternative Hypothesis)进行选择。首先,假设原假设成立,那么就 阅读全文
摘要:
最近在Coursera上学习Data Analysis课程,课程论坛中有个帖子针对交叉检验(Cross Validation)中训练数据集(train dataset),验证数据集(Validate dataset)和测试数据集(test dataset)展开讨论,内容挺好的,记录到这里,作为备忘。交叉检验(Cross Validation)在数据分析中,有些算法需要利用现有的数据构建模型,比如贝叶斯分类器,决策树,线性回归等,这类算法统称为监督学习(Supervisied Learning)算法。构建模型需要的数据称之为训练数据(Train Data)。模型构建完后,需要利用数据验证模型的正 阅读全文
摘要:
Factor是R中的一种数据类型,个人理解就是高级编程语言(C/C++,Python,PHP等)中的枚举。选取Factor数组中的子集不像character,numeric那样直观,在这里记录选取方法,可能不是最简洁的,如果有,还请高手指点。主要思路:将factor转成character,然后按照character的方式选取子集。看个例子:fv <- rep(c('a','b'),5)fv <- as.factor(fv)输出如下数据 [1] a b a b a b a b a bLevels: a b现在,需要将fv的所有枚举取到,也就是' 阅读全文