孟想阳光

2015年4月23日

摘要： HDFS和HBase是Hadoop中两种主要的存储文件系统，两者适用的场景不同，HDFS适用于大文件存储，HBASE适用于大量小文件存储。本文主要讲解HDFS文件系统中客户端是如何从Hadoop集群中读取和写入数据的，也可以说是block策略。正文一写入数据当没有配置机架信息时，所有的机器had... 阅读全文

posted @ 2015-04-23 11:26 孟想阳光阅读(414) 评论(0) 推荐(0) 编辑

MapReduce三种join实例分析

摘要：本文引自吴超博客实现原理 1、在Reudce端进行连接。在Reudce端进行连接是MapReduce框架进行表之间join操作最为常见的模式，其具体的实现原理如下： Map端的主要工作：为来自不同表(文件)的key/value对打标签以区别不同来源的记录。然后用连接字段作为key，其余部分和... 阅读全文

posted @ 2015-04-23 11:25 孟想阳光阅读(1390) 评论(0) 推荐(0) 编辑

pig hive hbase比较

摘要： Pig一种操作hadoop的轻量级脚本语言，最初又雅虎公司推出，不过现在正在走下坡路了。当初雅虎自己慢慢退出pig的维护之后将它开源贡献到开源社区由所有爱好者来维护。不过现在还是有些公司在用，不过我认为与其使用pig不如使用hive。：）Pig是一种数据流语言，用来快速轻松的处理巨大的数据。Pig包... 阅读全文

posted @ 2015-04-23 11:22 孟想阳光阅读(268) 评论(0) 推荐(0) 编辑

Hadoop面试题目

摘要： 1.Hadoop集群可以运行的3个模式？单机（本地）模式伪分布式模式全分布式模式2.单机（本地）模式中的注意点？在单机模式（standalone）中不会存在守护进程，所有东西都运行在一个JVM上。这里同样没有DFS，使用的是本地文件系统。单机模式适用于开发过程中运行MapReduce程序，这也是最少... 阅读全文

posted @ 2015-04-23 11:20 孟想阳光阅读(514) 评论(0) 推荐(0) 编辑

十大数据挖掘算法

摘要： 1. C4.5C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法. C4.5算法继承了ID3算法的优点，并在以下几方面对ID3算法进行了改进：1)用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足；2)在树构造过程中进行剪枝；3)能够完成对连续属性的离... 阅读全文

posted @ 2015-04-23 11:15 孟想阳光阅读(179) 评论(0) 推荐(0) 编辑

ResourceManager的HA

摘要：大家都知道在hadoop2中对HDFS的改进很大，实现了NameNode的HA；也增加了ResourceManager。但是ResourceManager也可以实现HA。你没看错，确实是ResourceManager的HA。注意是在Apache Hadoop 2.4.1版本中开始加入的，可不是任意一... 阅读全文

posted @ 2015-04-23 11:12 孟想阳光阅读(473) 评论(0) 推荐(0) 编辑

phoenix

摘要： phoenix(直译做凤凰)的操作sql是通过jdbc发送到HBase的。phoenix的查询语句会转化为hbase的scan操作和服务器端的过滤器。如果我们手工使用HBase的api去写这些代码，也会得到相同的运行结果和执行速度。但是，使用phoenix的效果却会带来更快的开发效率。他提供了HBa... 阅读全文

posted @ 2015-04-23 11:08 孟想阳光阅读(177) 评论(0) 推荐(0) 编辑

hadoop2.x的变化

摘要： HDFS Federation（HDFS联邦）HDFS有两个主要层：Namespace 由目录、文件和块组成；支持所有命名空间对文件和目录的操作。Block Storage Service 由Block Management和Storage组成。Block Management 提供dataNode... 阅读全文

posted @ 2015-04-23 10:58 孟想阳光阅读(271) 评论(0) 推荐(0) 编辑

vmware三种网络格式

摘要：网络地址转换(NAT)这种访问模式指的是虚拟机不占用主机所在局域网的ip，通过使用主机的NAT功能访问局域网和互联网，意味着虚拟机可以访问局域网中的其他电脑，但是其他电脑不知道虚拟机的存在。使用这种模式时，虚拟机不需要设置静态IP，只需要使用DHCP功能自动获取ip即可。这种模式的好处是可以利用主机... 阅读全文

posted @ 2015-04-23 10:55 孟想阳光阅读(226) 评论(0) 推荐(0) 编辑

MapReduce执行过程

摘要： Mapper任务的执行过程:第一阶段是把输入文件按照一定的标准分片(InputSplit)，每个输入片的大小是固定的。默认情况下，输入片(InputSplit)的大小与数据块(Block)的大小是相同的。如果数据块(Block)的大小是默认值64MB，输入文件有两个，一个是32MB，一个是72MB。... 阅读全文

posted @ 2015-04-23 10:49 孟想阳光阅读(400) 评论(0) 推荐(0) 编辑

公告