随笔分类 - Hadoop生态
摘要:转自:http://www.iteblog.com/archives/992 Hadoop经常用于处理大量的数据,如果期间的输出数据、中间数据能压缩存储,对系统的I/O性能会有提升。综合考虑压缩、解压速度、是否支持split,目前lzo是最好的选择。LZO(LZO是Lempel-Ziv-Oberhu
阅读全文
摘要:转自:http://my.oschina.net/leejun2005/blog/276891?utm_source=tuicool&utm_medium=referral 1、计数器 简介 在许多情况下,一个用户需要了解待分析的数据,尽管这并非所要执行的分析任务 的核心内容。以统计数据集中无效记录
阅读全文
摘要:Hadoop 2.4.0+zookeeper3.4.6+hbase0.98.3分布式集群搭建 Ip 主机名 程序 进程 192.168.137.11 h1 Jdk Hadoop hbase Namenode DFSZKFailoverController Hamster 192.168.137.12
阅读全文
摘要:转自:http://blog.csdn.net/colorant/article/details/9146201==目标问题==下一代的Hadoop框架,支持10,000+节点规模的Hadoop集群,支持更灵活的编程模型==核心思想==固定的编程模型,单点的资源调度和任务管理方式,使得Hadoop ...
阅读全文
摘要:转自:http://www.it165.net/admin/html/201307/1532.htmlSqoop:sqoop在hadoop生态系统中也是应用率比较高的软件,主要是用来做ETL工具,由yadoo研发并提交给Apache。Hadoop整个生态圈里面,大部分的应用都是Yadoo研发的,贡献...
阅读全文
摘要:转自:http://www.it165.net/admin/html/201307/1531.html基本都是在群里讨论的时候,别人问的入门问题,以后想到新的问题再补充进来。但是其实入门问题也很重要,对原理的理解决定了学习能够深入的程度。本篇不讨论Hadoop,只介绍周边软件。Hive:这个是我被人...
阅读全文