2015 年 11月 18 日随笔档案 - 1130136248

Hadoop学习笔记—21.Hadoop2的改进内容简介

摘要： Hadoop学习笔记—21.Hadoop2的改进内容简介Hadoop2相比较于Hadoop1.x来说，HDFS的架构与MapReduce的都有较大的变化，且速度上和可用性上都有了很大的提高，Hadoop2中有两个重要的变更：（1）HDFS的NameNode可以以集群的方式布署，增强了NameNode... 阅读全文

posted @ 2015-11-18 17:13 1130136248 阅读(197) 评论(0) 推荐(0) 编辑

Hadoop学习笔记—20.网站日志分析项目案例（三）统计分析

摘要： Hadoop学习笔记—20.网站日志分析项目案例（三）统计分析网站日志分析项目案例（一）项目介绍：http://www.cnblogs.com/edisonchou/p/4449082.html网站日志分析项目案例（二）数据清洗：http://www.cnblogs.com/edisonchou/p... 阅读全文

posted @ 2015-11-18 17:12 1130136248 阅读(223) 评论(0) 推荐(0) 编辑

Hadoop学习笔记—20.网站日志分析项目案例（二）数据清洗

摘要： Hadoop学习笔记—20.网站日志分析项目案例（二）数据清洗网站日志分析项目案例（一）项目介绍：http://www.cnblogs.com/edisonchou/p/4449082.html网站日志分析项目案例（二）数据清洗：当前页面网站日志分析项目案例（三）统计分析：http://www.cn... 阅读全文

posted @ 2015-11-18 17:11 1130136248 阅读(365) 评论(0) 推荐(0) 编辑

Hadoop学习笔记—19.Flume框架学习

摘要： Hadoop学习笔记—19.Flume框架学习START：Flume是Cloudera提供的一个高可用的、高可靠的开源分布式海量日志收集系统，日志数据可以经过Flume流向需要存储终端目的地。这里的日志是一个统称，泛指文件、操作记录等许多数据。一、Flume基础理论1.1 常见的分布式日志收集系统　... 阅读全文

posted @ 2015-11-18 17:10 1130136248 阅读(298) 评论(0) 推荐(0) 编辑

Hadoop学习笔记—20.网站日志分析项目案例（一）项目介绍

摘要： Hadoop学习笔记—20.网站日志分析项目案例（一）项目介绍网站日志分析项目案例（一）项目介绍：当前页面网站日志分析项目案例（二）数据清洗：http://www.cnblogs.com/edisonchou/p/4458219.html网站日志分析项目案例（三）统计分析：http://www.cn... 阅读全文

posted @ 2015-11-18 17:10 1130136248 阅读(234) 评论(0) 推荐(0) 编辑

Hadoop学习笔记系列文章导航

摘要： Hadoop学习笔记系列文章导航一、为何要学习Hadoop? 这是一个信息爆炸的时代。经过数十年的积累，很多企业都聚集了大量的数据。这些数据也是企业的核心财富之一，怎样从累积的数据里寻找价值，变废为宝炼数成金成为当务之急。但数据增长的速度往往比cpu和内存性能增长的速度还要快得多。要处理海量数据... 阅读全文

posted @ 2015-11-18 17:09 1130136248 阅读(151) 评论(0) 推荐(0) 编辑

Hadoop学习笔记—17.Hive框架学习

摘要： Hadoop学习笔记—17.Hive框架学习一、Hive：一个牛逼的数据仓库1.1 神马是Hive？ Hive 是建立在 Hadoop 基础上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。H... 阅读全文

posted @ 2015-11-18 17:05 1130136248 阅读(249) 评论(0) 推荐(0) 编辑

Hadoop学习笔记—18.Sqoop框架学习

摘要： Hadoop学习笔记—18.Sqoop框架学习一、Sqoop基础：连接关系型数据库与Hadoop的桥梁1.1 Sqoop的基本概念 Hadoop正成为企业用于大数据分析的最热门选择，但想将你的数据移植过去并不容易。Apache Sqoop正在加紧帮助客户将重要数据从数据库移到Hadoop。随着... 阅读全文

posted @ 2015-11-18 17:05 1130136248 阅读(193) 评论(0) 推荐(0) 编辑

Hadoop学习笔记—16.Pig框架学习

摘要： Hadoop学习笔记—16.Pig框架学习一、关于Pig：别以为猪不能干活1.1 Pig的简介 Pig是一个基于Hadoop的大规模数据分析平台，它提供的SQL-LIKE语言叫Pig Latin，该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂... 阅读全文

posted @ 2015-11-18 17:04 1130136248 阅读(227) 评论(0) 推荐(0) 编辑

Hadoop学习笔记—15.HBase框架学习（基础实践篇）

摘要： Hadoop学习笔记—15.HBase框架学习（基础实践篇）一、HBase的安装配置1.1 伪分布模式安装伪分布模式安装即在一台计算机上部署HBase的各个角色，HMaster、HRegionServer以及ZooKeeper都在一台计算机上来模拟。首先，准备好HBase的安装包，我这里使用... 阅读全文

posted @ 2015-11-18 17:03 1130136248 阅读(245) 评论(0) 推荐(0) 编辑

Hadoop学习笔记—14.ZooKeeper环境搭建

摘要： Hadoop学习笔记—14.ZooKeeper环境搭建从字面上来看，ZooKeeper表示动物园管理员，这是一个十分奇妙的名字，我们又想起了Hadoop生态系统中，许多项目的Logo都采用了动物，比如Hadoop采用了大象的形象，所以我们可以猜测ZooKeeper就是对这些动物进行一些管理工作的。一... 阅读全文

posted @ 2015-11-18 17:02 1130136248 阅读(219) 评论(0) 推荐(0) 编辑

Hadoop学习笔记—15.HBase框架学习（基础知识篇）

摘要： Hadoop学习笔记—15.HBase框架学习（基础知识篇）HBase是Apache Hadoop的数据库，能够对大型数据提供随机、实时的读写访问。HBase的目标是存储并处理大型的数据。HBase是一个开源的，分布式的，多版本的，面向列的存储模型，它存储的是松散型数据。一、HBase：BigTab... 阅读全文

posted @ 2015-11-18 17:02 1130136248 阅读(219) 评论(0) 推荐(0) 编辑

Hadoop学习笔记—13.分布式集群中节点的动态添加与下架

摘要： Hadoop学习笔记—13.分布式集群中节点的动态添加与下架开篇：在本笔记系列的第一篇中，我们介绍了如何搭建伪分布与分布模式的Hadoop集群。现在，我们来了解一下在一个Hadoop分布式集群中，如何动态（不关机且正在运行的情况下）地添加一个Hadoop节点与下架一个Hadoop节点。一、实验环境结... 阅读全文

posted @ 2015-11-18 17:01 1130136248 阅读(219) 评论(0) 推荐(0) 编辑

Hadoop学习笔记—11.MapReduce中的排序和分组

摘要： Hadoop学习笔记—11.MapReduce中的排序和分组一、写在之前的1.1 回顾Map阶段四大步骤首先，我们回顾一下在MapReduce中，排序和分组在哪里被执行：从上图中可以清楚地看出，在Step1.4也就是第四步中，需要对不同分区中的数据进行排序和分组，默认情况下，是按照key进行... 阅读全文

posted @ 2015-11-18 17:00 1130136248 阅读(191) 评论(0) 推荐(0) 编辑

Hadoop学习笔记—12.MapReduce中的常见算法

摘要： Hadoop学习笔记—12.MapReduce中的常见算法一、MapReduce中有哪些常见算法（1）经典之王：单词计数这个是MapReduce的经典案例，经典的不能再经典了！（2）数据去重 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数... 阅读全文

posted @ 2015-11-18 17:00 1130136248 阅读(3909) 评论(0) 推荐(0) 编辑

Hadoop学习笔记—9.Partitioner与自定义Partitioner

摘要： Hadoop学习笔记—9.Partitioner与自定义Partitioner一、初步探索Partitioner1.1 再次回顾Map阶段五大步骤在第四篇博文《初识MapReduce》中，我们认识了MapReduce的八大步凑，其中在Map阶段总共五个步骤，如下图所示：其中，step1.3就... 阅读全文

posted @ 2015-11-18 16:59 1130136248 阅读(183) 评论(0) 推荐(0) 编辑

Hadoop学习笔记—10.Shuffle过程那点事儿

摘要： Hadoop学习笔记—10.Shuffle过程那点事儿一、回顾Reduce阶段三大步骤在第四篇博文《初识MapReduce》中，我们认识了MapReduce的八大步骤，其中在Reduce阶段总共三个步骤，如下图所示：其中，Step2.1就是一个Shuffle操作，它针对多个map任务的输出按... 阅读全文

posted @ 2015-11-18 16:59 1130136248 阅读(249) 评论(0) 推荐(0) 编辑

Hadoop学习笔记—8.Combiner与自定义Combiner

摘要： Hadoop学习笔记—8.Combiner与自定义Combiner一、Combiner的出现背景1.1 回顾Map阶段五大步骤在第四篇博文《初识MapReduce》中，我们认识了MapReduce的八大步凑，其中在Map阶段总共五个步骤，如下图所示：其中，step1.5是一个可选步骤，它就是... 阅读全文

posted @ 2015-11-18 16:58 1130136248 阅读(240) 评论(0) 推荐(0) 编辑

Hadoop学习笔记—7.计数器与自定义计数器

摘要： Hadoop学习笔记—7.计数器与自定义计数器一、Hadoop中的计数器计数器：计数器是用来记录job的执行进度和状态的。它的作用可以理解为日志。我们通常可以在程序的某个位置插入计数器，用来记录数据或者进度的变化情况，它比日志更便利进行分析。例如，我们有一个文件，其中包含如下内容：hello y... 阅读全文

posted @ 2015-11-18 16:57 1130136248 阅读(291) 评论(0) 推荐(0) 编辑

Hadoop学习笔记—6.Hadoop Eclipse插件的使用

摘要： Hadoop学习笔记—6.Hadoop Eclipse插件的使用开篇：Hadoop 是一个强大的并行软件开发框架，它可以让任务在分布式集群上并行处理，从而提高执行效率。但是，它也有一些缺点，如编码、调试Hadoop程序的难度较大，这样的缺点直接导致开发人员入门门槛高，开发难度大。因此，Hadop的... 阅读全文

posted @ 2015-11-18 16:56 1130136248 阅读(187) 评论(0) 推荐(0) 编辑

导航

公告