摘要:
HDFS和HBase是Hadoop中两种主要的存储文件系统,两者适用的场景不同,HDFS适用于大文件存储,HBASE适用于大量小文件存储。本文主要讲解HDFS文件系统中客户端是如何从Hadoop集群中读取和写入数据的,也可以说是block策略。正文一写入数据 当没有配置机架信息时,所有的机器had... 阅读全文
摘要:
本文引自吴超博客实现原理 1、在Reudce端进行连接。 在Reudce端进行连接是MapReduce框架进行表之间join操作最为常见的模式,其具体的实现原理如下: Map端的主要工作:为来自不同表(文件)的key/value对打标签以区别不同来源的记录。然后用连接字段作为key,其余部分和... 阅读全文
摘要:
Pig一种操作hadoop的轻量级脚本语言,最初又雅虎公司推出,不过现在正在走下坡路了。当初雅虎自己慢慢退出pig的维护之后将它开源贡献到开源社区由所有爱好者来维护。不过现在还是有些公司在用,不过我认为与其使用pig不如使用hive。:)Pig是一种数据流语言,用来快速轻松的处理巨大的数据。Pig包... 阅读全文
摘要:
1.Hadoop集群可以运行的3个模式?单机(本地)模式伪分布式模式全分布式模式2.单机(本地)模式中的注意点?在单机模式(standalone)中不会存在守护进程,所有东西都运行在一个JVM上。这里同样没有DFS,使用的是本地文件系统。单机模式适用于开发过程中运行MapReduce程序,这也是最少... 阅读全文
摘要:
1. C4.5C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法. C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进:1)用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;2)在树构造过程中进行剪枝;3)能够完成对连续属性的离... 阅读全文
摘要:
大家都知道在hadoop2中对HDFS的改进很大,实现了NameNode的HA;也增加了ResourceManager。但是ResourceManager也可以实现HA。你没看错,确实是ResourceManager的HA。注意是在Apache Hadoop 2.4.1版本中开始加入的,可不是任意一... 阅读全文
摘要:
phoenix(直译做凤凰)的操作sql是通过jdbc发送到HBase的。phoenix的查询语句会转化为hbase的scan操作和服务器端的过滤器。如果我们手工使用HBase的api去写这些代码,也会得到相同的运行结果和执行速度。但是,使用phoenix的效果却会带来更快的开发效率。他提供了HBa... 阅读全文
摘要:
HDFS Federation(HDFS联邦)HDFS有两个主要层:Namespace 由目录、文件和块组成;支持所有命名空间对文件和目录的操作。Block Storage Service 由Block Management和Storage组成。Block Management 提供dataNode... 阅读全文
摘要:
网络地址转换(NAT)这种访问模式指的是虚拟机不占用主机所在局域网的ip,通过使用主机的NAT功能访问局域网和互联网,意味着虚拟机可以访问局域网中的其他电脑,但是其他电脑不知道虚拟机的存在。使用这种模式时,虚拟机不需要设置静态IP,只需要使用DHCP功能自动获取ip即可。这种模式的好处是可以利用主机... 阅读全文
摘要:
Mapper任务的执行过程:第一阶段是把输入文件按照一定的标准分片(InputSplit),每个输入片的大小是固定的。默认情况下,输入片(InputSplit)的大小与数据块(Block)的大小是相同的。如果数据块(Block)的大小是默认值64MB,输入文件有两个,一个是32MB,一个是72MB。... 阅读全文