Hadoop学习系列 - 随笔分类 - 五三中

Hadoop 2.2.0安装和配置lzo

摘要：转自：http://www.iteblog.com/archives/992 Hadoop经常用于处理大量的数据，如果期间的输出数据、中间数据能压缩存储，对系统的I/O性能会有提升。综合考虑压缩、解压速度、是否支持split，目前lzo是最好的选择。LZO（LZO是Lempel-Ziv-Oberhu 阅读全文

posted @ 2016-07-11 12:28 五三中阅读(619) 评论(0) 推荐(0)

MapReduce 计数器简介

摘要：转自：http://my.oschina.net/leejun2005/blog/276891?utm_source=tuicool&utm_medium=referral 1、计数器简介在许多情况下，一个用户需要了解待分析的数据，尽管这并非所要执行的分析任务的核心内容。以统计数据集中无效记录阅读全文

posted @ 2016-07-08 10:55 五三中阅读(1124) 评论(0) 推荐(0)

框架安装

摘要：kafka 下载http://kafka.apache.org/downloads.html解压tar -zxvf kafka_2.10-0.8.1.1.tgz启动服务首先启动zookeeper服务bin/zookeeper-server-start.sh config/zookeeper.prop 阅读全文

posted @ 2016-06-22 01:22 五三中阅读(387) 评论(0) 推荐(0)

对TextFile格式文件的lzo压缩建立index索引

摘要：转自：http://blog.csdn.net/yangbutao/article/details/8519572 hadoop中可以对文件进行压缩，可以采用gzip、lzo、snappy等压缩算法。对于lzo压缩，常用的有LzoCodec和lzopCodec，可以对sequenceFile和Te 阅读全文

posted @ 2016-06-20 15:31 五三中阅读(1422) 评论(0) 推荐(0)

Namenode HA原理详解（脑裂）

摘要：转自：http://blog.csdn.net/tantexian/article/details/40109331 Namenode HA原理详解社区hadoop2.2.0 release版本开始支持NameNode的HA，本文将详细描述NameNode HA内部的设计与实现。为什么要Name 阅读全文

posted @ 2016-04-07 14:30 五三中阅读(2610) 评论(0) 推荐(0)

YARN : Architecture of Next Generation Apache Hadoop MapReduceFramework

摘要：转自：http://blog.csdn.net/colorant/article/details/9146201==目标问题==下一代的Hadoop框架，支持10,000+节点规模的Hadoop集群，支持更灵活的编程模型==核心思想==固定的编程模型，单点的资源调度和任务管理方式，使得Hadoop ... 阅读全文

posted @ 2016-01-12 15:55 五三中阅读(394) 评论(0) 推荐(0)

Hadoop集群作业调度算法

摘要：转自：http://blog.csdn.net/chen_jp/article/details/7983076Hadoop集群中有三种作业调度算法，分别为FIFO，公平调度算法和计算能力调度算法先来先服务（FIFO）FIFO比较简单，hadoop中只有一个作业队列，被提交的作业按照先后顺序在作业队列... 阅读全文

posted @ 2016-01-12 15:16 五三中阅读(973) 评论(0) 推荐(0)

MapReduce 中的两表 join 几种方案简介

摘要：转自：http://my.oschina.net/leejun2005/blog/95186MapSideJoin例子：http://my.oschina.net/leejun2005/blog/1119631. 概述在传统数据库（如：MYSQL）中，JOIN操作是非常常见且非常耗时的。而在HADO... 阅读全文

posted @ 2016-01-07 01:46 五三中阅读(536) 评论(0) 推荐(0)

精心收集的Hadoop学习资料(持续更新)

摘要：转自：http://blog.csdn.net/wypblog/article/details/17528851 最近发现自己收集到的Hadoop学习资料有很多本，想想放在那里也浪费，所以觉得贴出来给大家分享，需要的可以去我CSDN里面下载，保证全部资源免费下载！这里面很多英文的资料。 1、《H... 阅读全文

posted @ 2015-12-18 17:08 五三中阅读(590) 评论(0) 推荐(0)

[大牛翻译系列]Hadoop 翻译文章索引

摘要：转自：http://www.cnblogs.com/datacloud/p/3604492.html原书章节原书章节题目翻译文章序号翻译文章题目链接4.1JoiningHadoop（1）MapReduce连接：重分区连接（Repartitionjoin）http://www.cnblogs.com/... 阅读全文

posted @ 2015-12-18 16:22 五三中阅读(407) 评论(0) 推荐(0)

从Hadoop框架与MapReduce模式中谈海量数据处理（含淘宝技术架构）

摘要：转自：http://blog.csdn.net/jsagnoy/article/details/41545883从hadoop框架与MapReduce模式中谈海量数据处理前言几周前，当我最初听到，以致后来初次接触Hadoop与MapReduce这两个东西，我便稍显兴奋，觉得它们很是神秘，而神秘的东... 阅读全文

posted @ 2015-12-13 21:29 五三中阅读(372) 评论(0) 推荐(0)

浅析 Hadoop 中的数据倾斜

摘要：转自：http://my.oschina.net/leejun2005/blog/100922最近几次被问到关于数据倾斜的问题，这里找了些资料也结合一些自己的理解. 在并行计算中我们总希望分配的每一个task 都能以差不多的粒度来切分并且完成时间相差不大，但是集群中可能硬件不同，应用的类型不同和切分... 阅读全文

posted @ 2015-12-06 15:52 五三中阅读(691) 评论(0) 推荐(0)

Hadoop、Pig、Hive、NOSQL 学习资源收集

摘要：转自：http://www.cnblogs.com/zzjhn/p/3855566.html（一）hadoop 相关安装部署1、hadoop在windows cygwin下的部署：http://lib.open-open.com/view/1333428291655http://blog.csdn.... 阅读全文

posted @ 2015-11-30 15:03 五三中阅读(767) 评论(0) 推荐(0)

Hadoop家族系列文章

摘要：转自：http://blog.fens.me/series-hadoop-family/Hadoop家族系列文章，主要介绍Hadoop家族产品，常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukw... 阅读全文

posted @ 2015-11-29 01:42 五三中阅读(219) 评论(0) 推荐(0)

SQL on Hadoop系统的最新进展（1）

摘要：转自：http://blog.jobbole.com/47892/为什么非要把SQL放到Hadoop上？ SQL易于使用。那为什么非得基于Hadoop呢？the robust and scalable architecture of Hadoop目前SQL on Hadoop产品主要有以下几种：Hi... 阅读全文

posted @ 2015-11-29 01:35 五三中阅读(626) 评论(0) 推荐(0)

SQL on Hadoop 的真相（1）

摘要：转自：http://blog.jobbole.com/86710/这是一组系列博文，目的是详尽介绍 SQL-on-Hadoop 。本系列的第一篇会介绍 Hadoop 系统的存储引擎和在线事务处理（简称 OLTP ）；第二篇将介绍在线分析处理（简称 OLAP ）；第三篇将介绍对 Hadoop 引擎的改... 阅读全文

posted @ 2015-11-29 01:33 五三中阅读(425) 评论(0) 推荐(0)

SQL on Hadoop 的真相（2）

摘要：转自：http://blog.jobbole.com/87159/这是一组系列博客，目的是详尽介绍 SQL-on-Hadoop 。该系列的第一篇会介绍一些存储引擎和在线事务处理（简称 OLTP ）相关话题，这一篇将介绍联机分析处理（简称 OLAP ），第三篇将介绍对 Hadoop 引擎改造以及在相关... 阅读全文

posted @ 2015-11-29 01:33 五三中阅读(938) 评论(0) 推荐(0)

mapreduce框架详解

摘要：转自：http://www.cnblogs.com/sharpxiajun/p/3151395.html开始聊mapreduce，mapreduce是hadoop的计算框架，我学hadoop是从hive开始入手，再到hdfs，当我学习hdfs时候，就感觉到hdfs和mapreduce关系的紧密。这个... 阅读全文

posted @ 2015-11-29 01:24 五三中阅读(1130) 评论(0) 推荐(0)

TopK的一个简单实现

摘要：转自：http://rangerwolf.iteye.com/blog/2119096题外话：《Hadoop in Action》是一本非常不错的交Hadoop的入门书，而且建议看英文版。此书作者的英文表达非常简单易懂。相信有一定英文阅读能力的同学直接用英文版就能非常容易的上手~进入正题。这个题... 阅读全文

posted @ 2015-11-25 22:55 五三中阅读(439) 评论(0) 推荐(0)

Hadoop学习路线图

摘要：转自：http://blog.csdn.net/zhoudaxia/article/details/8801769按照这个路线图来学习即可。 1、M. Tim Jones的三篇文章：用Hadoop进行分布式数据处理第1部分（入门）：http://www.ibm.com/developerworks... 阅读全文

posted @ 2015-11-13 23:20 五三中阅读(2480) 评论(1) 推荐(0)

cxzdy

随笔分类 - Hadoop学习系列

公告