随笔分类 - Hadoop学习系列
摘要:转自:http://www.iteblog.com/archives/992 Hadoop经常用于处理大量的数据,如果期间的输出数据、中间数据能压缩存储,对系统的I/O性能会有提升。综合考虑压缩、解压速度、是否支持split,目前lzo是最好的选择。LZO(LZO是Lempel-Ziv-Oberhu
阅读全文
摘要:转自:http://my.oschina.net/leejun2005/blog/276891?utm_source=tuicool&utm_medium=referral 1、计数器 简介 在许多情况下,一个用户需要了解待分析的数据,尽管这并非所要执行的分析任务 的核心内容。以统计数据集中无效记录
阅读全文
摘要:kafka 下载http://kafka.apache.org/downloads.html解压tar -zxvf kafka_2.10-0.8.1.1.tgz启动服务首先启动zookeeper服务bin/zookeeper-server-start.sh config/zookeeper.prop
阅读全文
摘要:转自:http://blog.csdn.net/yangbutao/article/details/8519572 hadoop中可以对文件进行压缩,可以采用gzip、lzo、snappy等压缩算法。 对于lzo压缩,常用的有LzoCodec和lzopCodec,可以对sequenceFile和Te
阅读全文
摘要:转自:http://blog.csdn.net/tantexian/article/details/40109331 Namenode HA原理详解 社区hadoop2.2.0 release版本开始支持NameNode的HA,本文将详细描述NameNode HA内部的设计与实现。 为什么要Name
阅读全文
摘要:转自:http://blog.csdn.net/colorant/article/details/9146201==目标问题==下一代的Hadoop框架,支持10,000+节点规模的Hadoop集群,支持更灵活的编程模型==核心思想==固定的编程模型,单点的资源调度和任务管理方式,使得Hadoop ...
阅读全文
摘要:转自:http://blog.csdn.net/chen_jp/article/details/7983076Hadoop集群中有三种作业调度算法,分别为FIFO,公平调度算法和计算能力调度算法先来先服务(FIFO)FIFO比较简单,hadoop中只有一个作业队列,被提交的作业按照先后顺序在作业队列...
阅读全文
摘要:转自:http://my.oschina.net/leejun2005/blog/95186MapSideJoin例子:http://my.oschina.net/leejun2005/blog/1119631. 概述在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的。而在HADO...
阅读全文
摘要:转自:http://blog.csdn.net/wypblog/article/details/17528851 最近发现自己收集到的Hadoop学习资料有很多本,想想放在那里也浪费,所以觉得贴出来给大家分享,需要的可以去我CSDN里面下载,保证全部资源免费下载!这里面很多英文的资料。 1、《H...
阅读全文
摘要:转自:http://www.cnblogs.com/datacloud/p/3604492.html原书章节原书章节题目翻译文章序号翻译文章题目链接4.1JoiningHadoop(1)MapReduce连接:重分区连接(Repartitionjoin)http://www.cnblogs.com/...
阅读全文
摘要:转自:http://blog.csdn.net/jsagnoy/article/details/41545883从hadoop框架与MapReduce模式中谈海量数据处理前言 几周前,当我最初听到,以致后来初次接触Hadoop与MapReduce这两个东西,我便稍显兴奋,觉得它们很是神秘,而神秘的东...
阅读全文
摘要:转自:http://my.oschina.net/leejun2005/blog/100922最近几次被问到关于数据倾斜的问题,这里找了些资料也结合一些自己的理解. 在并行计算中我们总希望分配的每一个task 都能以差不多的粒度来切分并且完成时间相差不大,但是集群中可能硬件不同,应用的类型不同和切分...
阅读全文
摘要:转自:http://www.cnblogs.com/zzjhn/p/3855566.html(一)hadoop 相关安装部署1、hadoop在windows cygwin下的部署:http://lib.open-open.com/view/1333428291655http://blog.csdn....
阅读全文
摘要:转自:http://blog.fens.me/series-hadoop-family/Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukw...
阅读全文
摘要:转自:http://blog.jobbole.com/47892/为什么非要把SQL放到Hadoop上? SQL易于使用。那为什么非得基于Hadoop呢?the robust and scalable architecture of Hadoop目前SQL on Hadoop产品主要有以下几种:Hi...
阅读全文
摘要:转自:http://blog.jobbole.com/86710/这是一组系列博文,目的是详尽介绍 SQL-on-Hadoop 。本系列的第一篇会介绍 Hadoop 系统的存储引擎和在线事务处理(简称 OLTP );第二篇将介绍在线分析处理(简称 OLAP );第三篇将介绍对 Hadoop 引擎的改...
阅读全文
摘要:转自:http://blog.jobbole.com/87159/这是一组系列博客,目的是详尽介绍 SQL-on-Hadoop 。该系列的第一篇会介绍一些存储引擎和在线事务处理(简称 OLTP )相关话题,这一篇将介绍联机分析处理(简称 OLAP ),第三篇将介绍对 Hadoop 引擎改造以及在相关...
阅读全文
摘要:转自:http://www.cnblogs.com/sharpxiajun/p/3151395.html开始聊mapreduce,mapreduce是hadoop的计算框架,我学hadoop是从hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密。这个...
阅读全文
摘要:转自:http://rangerwolf.iteye.com/blog/2119096题外话:《Hadoop in Action》 是一本非常不错的交Hadoop的入门书,而且建议看英文版。此书作者的英文表达非常简单易懂。相信有一定英文阅读能力的同学直接用英文版就能非常容易的上手~进入正题。 这个题...
阅读全文
摘要:转自:http://blog.csdn.net/zhoudaxia/article/details/8801769按照这个路线图来学习即可。 1、M. Tim Jones的三篇文章: 用Hadoop进行分布式数据处理第1部分(入门):http://www.ibm.com/developerworks...
阅读全文