随笔分类 - 云计算&大数据
摘要:一:回归模型介绍从理论上讲,回归模型即用已知的数据变量来预测另外一个数据变量,已知的数据属性称为输入或者已有特征,想要预测的数据称为输出或者目标变量。下图是一个例子: 图中是某地区的面积大小与房价的关系图,输入变量X是面积,输出变量Y是房价,把已有的数据集(x,y)作为一个训练数据,拟合出线性回归...
阅读全文
摘要:摘要:旁听了清华大学王建勇老师的 数据挖掘:理论与算法 的课,讲的还是挺细的,好记性不如烂笔头,在此记录自己的学习内容,方便以后复习。 一:贝叶斯分类器简介 1)贝叶斯分类器是一种基于统计的分类器,它根据给定样本属于某一个具体类的概率来对其进行分类。 2)贝叶斯分类器的理论基础是贝叶斯理论。 3)贝叶斯分类器的一种简单形式是朴素贝叶斯分类器,跟随机森林、神经网络等分类器都有可比的性能。 4)贝叶斯分类器是一种增量型的分类器。 二:贝叶斯理论 第一次接触贝叶斯还是本科学概率论的时候,那时候也就只知道做题目,没想到现在还能够在工作和学习中用到它,先复习下相关的基础概率公式...
阅读全文
摘要:摘要:在随机森林介绍中提到了随机森林一个重要特征:能够计算单个特征变量的重要性。并且这一特征在很多方面能够得到应用,例如在银行贷款业务中能否正确的评估一个企业的信用度,关系到是否能够有效地回收贷款。但是信用评估模型的数据特征有很多,其中不乏有很多噪音,所以需要计算出每一个特征的重要性并对这些特征进行一个排序,进而可以从所有特征中选择出重要性靠前的特征。 一:特征重要性 在随机森林中某个特征X的重要性的计算方法如下: 1:对于随机森林中的每一颗决策树,使用相应的OOB(袋外数据)数据来计算它的袋外数据误差,记为errOOB1. 2: 随机地对袋外数据OOB所有样本的特征X加入噪声...
阅读全文
摘要:摘要:在随机森林之Bagging法中可以发现Bootstrap每次约有1/3的样本不会出现在Bootstrap所采集的样本集合中,当然也就没有参加决策树的建立,那是不是意味着就没有用了呢,答案是否定的。我们把这1/3的数据称为袋外数据oob(out of bag),它可以用于取代测试集误差估计方法. 在论文: 1:Bias,variance and prediction error for classification rules. 2: An Efficient Method To Estimate Baggin’s Generalization Error. 3:Bagging P...
阅读全文
摘要:摘要:在随机森林介绍中提到了Bagging方法,这里就具体的学习下bagging方法。 Bagging方法是一个统计重采样的技术,它的基础是Bootstrap。基本思想是:利用Bootstrap方法重采样来生成多个版本的预测分类器,然后把这些分类器进行组合。通常情况下组合的分类器给出的结果比单一分类器的好,因为综合了各个分类器的特点。之所以用可重复的随机采样技术Bootstrap,是因为进行重复的随机采样所获得的样本可以得到没有或者含有较少的噪声数据。 在训练集上采样Bootstrap的方法进行采样,平均1/3的样本不会出现在采样的样本集合中,这就意味着训练集中的噪声点可能不会出现在Boo..
阅读全文
摘要:摘要:随机森林与决策树的一个显著的不同点就是它不会产生过度拟合。它的理论依据就是大数定律。 很熟悉的一个名词:大数定律,记得本科的概率论就有学,忘了差不多了,下面先复习下。 大量试验说明,随机事件A的频率R(A),当重复试验的次数n增大时,总呈现出稳定性,稳定在某一个常数的附件,意指数量越多,其平均值就越趋近与期望值。 一:大数定律回顾 切比雪夫定理: 设 a1,a2,a3,…,an 为相互独立的随机变量,其数学期望为:E(ai)=, 及方差D(ai)= 则序列收敛于u,即在定理条件下,当n无限变大时,n个随机变量的算术平均将趋于一个常数。 辛钦定理(切比雪夫...
阅读全文
摘要:摘要:以前在机器学习中一直使用经验风险来逼近真实风险,但是事实上大多数情况经验风险并不能够准确逼近真实风险。后来业界就提出了泛化误差的概念(generalization error),在机器学习中泛化误差是用来衡量一个学习机器推广未知数据的能力,即根据从样本数据中学习到的规则能够应用到新数据的能力。常用的计算方法是:用在训练集上的误差平均值-在测试集上的误差平均值。 一:经验风险 机器学习本质上是一种对问题真实模型的逼近,这种近似模型也叫做一个假设。因为真实模型肯定是无法得到的,那我们的假设肯定与真实情况之间存在误差,这种误差或者误差的积累也叫做风险。 在我们选择了一个假设(或者获得一个...
阅读全文
摘要:前面的一篇博客:分类算法之决策树介绍了决策树算法,从介绍中可以发现,决策树有些与生俱来的缺点: 1:分类规则复杂 决策树算法在产生规则的时候采用局部贪婪法。每次都只选择一个属性进行分析构造决策树,所以再产生的分类规则往往相当复杂。 2:收敛到非全局的局部最优解 ID3算法每次在树的某个层次进行属性选择时,它不再回溯重新考虑这个选择,所以它容易产生盲人登山中常见的风险,仅仅收敛到非全局的局部最优解。 3:过度拟合 在决策树学习中,由于分类器过于复杂,它可能会过于适应噪声,从而导致过度拟合问题。 为了克服以上的缺点,引入了另外一个预测模型-----随机...
阅读全文
摘要:实习了一段时间,接触了一些数据挖掘、机器学习的算法,先记录下来方便以后的复习回顾:一:决策树概念 决策树可以看做一个树状预测模型,它是由节点和有向边组成的层次结构。树中包含3中节点:根节点、内部节点、叶子节点。决策树只有一个根节点,是全体训练数据的集合。树中每个内部节点都是一个分裂问题:指定了对实例的某个属性的测试,它将到达该节点的样本按照某个特定的属性进行分割,并且该节点的每一个后继分支对应于该属性的一个可能值。每个叶子节点是带有分类标签的数据集合即为实例所属的分类。 决策树算法很多,例如:ID3、C4.5、CART等。这些算法均采用自上而下的贪婪算法,每个内部节点选择分类效果最好的属性..
阅读全文
摘要:1)安装Ubuntu或其他Linux系统: a)为减少错误,集群中的主机最好安装同一版本的Linux系统,我的是Ubuntu12.04。 b)每个主机的登陆用户名也最好都一样,比如都是hadoop,不然到最后启动hadoop时会出现不管你密码是否输入正确,都会提示权限不够的错误,如果你之前装系统时没注意到这个问题,可以之后在每个主机上都新建一个用户hadoop来实现,命令如下: 增加hadoop用户:sudo adduser hadoop 把新加的hadoop用户,添加到admin组中,让其有sudo权限:sudo usermod -aG adm,sudo hadoop 切换到hado...
阅读全文
摘要:HDFS和MapReduce是Hadoop的核心,整个Hadoop的体系结构主要是通过HDFS来实现 分布式存储底层支持的,并且它会通过MapReduce来实现分布式并行任务处理的程序支持。 首先介绍下HDFS的体系结构:HDFS采用了主从(master/slave)结构模型,一个HDFS集群是由一个namenode和若干datanode组成。其中namenode作为主服务器,管理文件系统命名空间和客户端对文件的访问操作;集群中的datanode管理存储的数据。HDFS允许用户以文件的形式存储数据。从内部来看,文件被分为若干个数据块,而且这若干个数据块存放在一组datanode...
阅读全文