摘要: 1 IntelliJ IDEA是一款非常优秀的JAVA编辑器,是jetbrain开发的一个IDE,用于Java、Groovy、Scala等的开发,自称是当前最智能的Java开发环境(The most intelligent IDE for Java platform),相对于其他开发工具来说,其对于... 阅读全文
posted @ 2015-04-23 21:19 孟想阳光 阅读(406) 评论(1) 推荐(0) 编辑
摘要: scala简介:scala基于JVM的FP+OO(函数编程和面向对象编程)• 静态类型• 和Java互操作解释器(interpreter)• 值与变量(val & var)• 函数(Function)scala安装:1. 官网下载下载http://www.scala-lang.org/downloa... 阅读全文
posted @ 2015-04-23 21:06 孟想阳光 阅读(189) 评论(0) 推荐(0) 编辑
摘要: 前提:假如有一批输入数据格式如下:用户id|文章类别|浏览次数要求:用pig求出每个用户浏览次数最多的文章类别?1.首先:读入数据– 指定分隔符为 “|”– 指定每个字段的类型进入pig, u_ct=load'/output' using PigStorage('|') as(user:charar... 阅读全文
posted @ 2015-04-23 19:11 孟想阳光 阅读(79) 评论(0) 推荐(0) 编辑
摘要: 1.最小错误率贝叶斯决策2.最小风险叶斯决策在模式分类的决策中,最小错误率的原则是重要的,但实际上我们有可能关心的不仅仅是错误率,而是错误所带来的损失或风险。而风险又是和损失紧密相连的,所谓最小风险贝叶斯决策就是考虑各种错误造成损失不同时而提出的一种决策规律,而基于最小错误率的贝叶斯决策不能确定决策... 阅读全文
posted @ 2015-04-23 16:01 孟想阳光 阅读(148) 评论(0) 推荐(0) 编辑
摘要: HDFS和HBase是Hadoop中两种主要的存储文件系统,两者适用的场景不同,HDFS适用于大文件存储,HBASE适用于大量小文件存储。本文主要讲解HDFS文件系统中客户端是如何从Hadoop集群中读取和写入数据的,也可以说是block策略。正文一写入数据 当没有配置机架信息时,所有的机器had... 阅读全文
posted @ 2015-04-23 11:26 孟想阳光 阅读(414) 评论(0) 推荐(0) 编辑
摘要: 本文引自吴超博客实现原理 1、在Reudce端进行连接。 在Reudce端进行连接是MapReduce框架进行表之间join操作最为常见的模式,其具体的实现原理如下: Map端的主要工作:为来自不同表(文件)的key/value对打标签以区别不同来源的记录。然后用连接字段作为key,其余部分和... 阅读全文
posted @ 2015-04-23 11:25 孟想阳光 阅读(1390) 评论(0) 推荐(0) 编辑
摘要: Pig一种操作hadoop的轻量级脚本语言,最初又雅虎公司推出,不过现在正在走下坡路了。当初雅虎自己慢慢退出pig的维护之后将它开源贡献到开源社区由所有爱好者来维护。不过现在还是有些公司在用,不过我认为与其使用pig不如使用hive。:)Pig是一种数据流语言,用来快速轻松的处理巨大的数据。Pig包... 阅读全文
posted @ 2015-04-23 11:22 孟想阳光 阅读(268) 评论(0) 推荐(0) 编辑
摘要: 1.Hadoop集群可以运行的3个模式?单机(本地)模式伪分布式模式全分布式模式2.单机(本地)模式中的注意点?在单机模式(standalone)中不会存在守护进程,所有东西都运行在一个JVM上。这里同样没有DFS,使用的是本地文件系统。单机模式适用于开发过程中运行MapReduce程序,这也是最少... 阅读全文
posted @ 2015-04-23 11:20 孟想阳光 阅读(514) 评论(0) 推荐(0) 编辑
摘要: 本文引自于吴超博客一. SSH无密码验证配置Hadoop 需要使用SSH 协议,namenode使用SSH 协议启动 namenode 和datanode 进程,伪分布式模式数据节点和名称节点均是本身,必须配置 SSH localhost无密码验证。以下用root用户登录仅为了方便起见。登录后,执行... 阅读全文
posted @ 2015-04-23 11:16 孟想阳光 阅读(156) 评论(0) 推荐(0) 编辑
摘要: 1. C4.5C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法. C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进:1)用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;2)在树构造过程中进行剪枝;3)能够完成对连续属性的离... 阅读全文
posted @ 2015-04-23 11:15 孟想阳光 阅读(179) 评论(0) 推荐(0) 编辑
摘要: 大家都知道在hadoop2中对HDFS的改进很大,实现了NameNode的HA;也增加了ResourceManager。但是ResourceManager也可以实现HA。你没看错,确实是ResourceManager的HA。注意是在Apache Hadoop 2.4.1版本中开始加入的,可不是任意一... 阅读全文
posted @ 2015-04-23 11:12 孟想阳光 阅读(475) 评论(0) 推荐(0) 编辑
摘要: 通过我们前面的操作,已经可以编译并且打包产生适合本机的hadoop包,目录是hadoop-dist/target/hadoop-2.2.0。使用root用户登录配置文件位于/usr/local/hadoop-dist/target/hadoop-2.2.0/etc/hadoop目录下。编辑文件had... 阅读全文
posted @ 2015-04-23 11:11 孟想阳光 阅读(132) 评论(0) 推荐(0) 编辑
摘要: phoenix(直译做凤凰)的操作sql是通过jdbc发送到HBase的。phoenix的查询语句会转化为hbase的scan操作和服务器端的过滤器。如果我们手工使用HBase的api去写这些代码,也会得到相同的运行结果和执行速度。但是,使用phoenix的效果却会带来更快的开发效率。他提供了HBa... 阅读全文
posted @ 2015-04-23 11:08 孟想阳光 阅读(177) 评论(0) 推荐(0) 编辑
摘要: hadoop2的中的MapReduce不再是hadoop1中的结构已经没有了JobTracker,而是分解成ResourceManager和ApplicationMaster。这次大变革被称为MRv2或者YARN,是一次革命性的变化。修改文件yarn-site.xml,内容如下yarn.resour... 阅读全文
posted @ 2015-04-23 11:06 孟想阳光 阅读(151) 评论(0) 推荐(0) 编辑
摘要: 本文引自吴超博客:http://www.superwu.cn/2014/02/12/1094/hadoop是分布式系统,运行在linux之上,配置起来相对复杂。hadoop2出来后,解决了hadoop1的几个固有缺陷,比如单点故障、资源利用率低、支持作业类型少等问题,结构发生了很大变化,是hadoo... 阅读全文
posted @ 2015-04-23 11:05 孟想阳光 阅读(190) 评论(0) 推荐(0) 编辑
摘要: HDFS Federation(HDFS联邦)HDFS有两个主要层:Namespace 由目录、文件和块组成;支持所有命名空间对文件和目录的操作。Block Storage Service 由Block Management和Storage组成。Block Management 提供dataNode... 阅读全文
posted @ 2015-04-23 10:58 孟想阳光 阅读(271) 评论(0) 推荐(0) 编辑
摘要: 网络地址转换(NAT)这种访问模式指的是虚拟机不占用主机所在局域网的ip,通过使用主机的NAT功能访问局域网和互联网,意味着虚拟机可以访问局域网中的其他电脑,但是其他电脑不知道虚拟机的存在。使用这种模式时,虚拟机不需要设置静态IP,只需要使用DHCP功能自动获取ip即可。这种模式的好处是可以利用主机... 阅读全文
posted @ 2015-04-23 10:55 孟想阳光 阅读(226) 评论(0) 推荐(0) 编辑
摘要: 最顶级是InputFormat抽象类 ,该类定义了两个方法,方法getSplits是负责切分输入文件(们)的,把很多的输入文件(们)切分成很多的输入分片,切分规则就是在这里定义的,每个InputSplit对应一个Mapper任务。方法createRecordReader是负责把getSplits生成... 阅读全文
posted @ 2015-04-23 10:53 孟想阳光 阅读(725) 评论(0) 推荐(0) 编辑
摘要: Mapper任务的执行过程:第一阶段是把输入文件按照一定的标准分片(InputSplit),每个输入片的大小是固定的。默认情况下,输入片(InputSplit)的大小与数据块(Block)的大小是相同的。如果数据块(Block)的大小是默认值64MB,输入文件有两个,一个是32MB,一个是72MB。... 阅读全文
posted @ 2015-04-23 10:49 孟想阳光 阅读(400) 评论(0) 推荐(0) 编辑
摘要: 当集群启动的时候,会首先进入到安全模式。系统在安全模式下,会检查数据块的完整性。假设我们设置的副本数(即参数dfs.replication)是5,那么在dataNode上就应该有5个副本存在,假设只存在3个副本,那么比率就是3/5=0.6。在配置文件hdfs-default.xml中定义了一个最小的... 阅读全文
posted @ 2015-04-23 10:45 孟想阳光 阅读(288) 评论(0) 推荐(0) 编辑