随笔分类 -  hadoop

hadoop生态圈记录
摘要:1.概述 上一篇我们了解了MapReduce的相关流程,包含MapReduce V2的重构思路,新的设计架构,与MapReduce V1的区别等内容,今天我们在来学习下在Hadoop V2中的序列化的相关内容,其目录如下所示:序列化的由来Hadoop序列化依赖图详解Writable常用实现类 下... 阅读全文
posted @ 2015-04-21 10:34 哥不是小萝莉 阅读(2734) 评论(3) 推荐(2) 编辑
摘要:1.概述 前面我们已经对Hadoop有了一个初步认识,接下来我们开始学习Hadoop的一些核心的功能,其中包含mapreduce,fs,hdfs,ipc,io,yarn,今天为大家分享的是mapreduce部分,其内容目录如下所示:MapReduce V1MapReduce V2MR V1和MR ... 阅读全文
posted @ 2015-04-17 12:06 哥不是小萝莉 阅读(5319) 评论(0) 推荐(6) 编辑
摘要:1.概述 在完成分析Hadoop2源码的准备工作后,我们进入到后续的源码学习阶段。本篇博客给大家分享,让大家对Hadoop V2有个初步认识,博客的目录内容如下所示:Hadoop的渊源Hadoop V2部分项目图各个包的功能介绍 本篇文章的源码是基于Hadoop-2.6.0来分析,其他版本的Ha... 阅读全文
posted @ 2015-04-15 11:18 哥不是小萝莉 阅读(1719) 评论(0) 推荐(2) 编辑
摘要:1.概述 我们已经能够搭建一个高可用的Hadoop平台了,也熟悉并掌握了一个项目在Hadoop平台下的开发流程,基于Hadoop的一些套件我们也能够使用,并且能利用这些套件进行一些任务的开发。在Hadoop的应用级别上,我们接着往后面去研究学习,那就是Hadoop的源码了,作为Hadoop开发人员... 阅读全文
posted @ 2015-04-12 00:19 哥不是小萝莉 阅读(5649) 评论(2) 推荐(3) 编辑
摘要:1.概述 这篇博客不涉及到具体的编码,只是解答最近一些朋友心中的疑惑。最近,一些朋友和网友纷纷私密我,我总结了一下,疑问大致包含以下几点:我学 Hadoop 后能从事什么岗位?在遇到问题,我该如何去寻求解决方案? 针对以上问题,我在这里赘述下个人的经验,给即将步入 Hadoop 行业的同学做个参... 阅读全文
posted @ 2015-04-07 18:01 哥不是小萝莉 阅读(1261) 评论(2) 推荐(6) 编辑
摘要:1.概述 今天这篇博客就是《高可用Hadoop平台》的尾声篇了,从搭建安装到入门运行 Hadoop 版的 HelloWorld(WordCount 可以称的上是 Hadoop 版的 HelloWorld ),在到开发中需要用到的各个套件以及对套件的安装使用,在到 Hadoop 的实战,一路走来我们... 阅读全文
posted @ 2015-04-03 10:50 哥不是小萝莉 阅读(1519) 评论(2) 推荐(4) 编辑
摘要:1.概述 今天继续《高可用的Hadoop平台》系列,今天开始进行小规模的实战下,前面的准备工作完成后,基本用于统计数据的平台都拥有了,关于导出统计结果的文章留到后面赘述。今天要和大家分享的案例是一个基于电商网站的用户行为分析,这里分析的指标包含以下指标:统计每日PV每日注册用户每日IP跳出用户 ... 阅读全文
posted @ 2015-04-01 14:54 哥不是小萝莉 阅读(2926) 评论(8) 推荐(5) 编辑
摘要:1.概述 这篇博客是接着《高可用Hadoop平台》系列讲,本篇博客是为后面用 Hive 来做数据统计做准备的,介绍如何在 Hadoop HA 平台下集成高可用的 Hive 工具,下面我打算分以下流程来赘述:环境准备集成并配置 Hive 工具使用 Java API 开发 Hive 代码 下面开始进... 阅读全文
posted @ 2015-03-26 14:28 哥不是小萝莉 阅读(5742) 评论(3) 推荐(5) 编辑
摘要:1.概述 最近有同学反应,如何在配置了HA的Hadoop平台运行MapReduce程序呢?对于刚步入Hadoop行业的同学,这个疑问却是会存在,其实仔细想想,如果你之前的语言功底不错的,应该会想到自动重连,自动重连也可以帮我我们解决运行MapReduce程序的问题。然后,今天我赘述的是利用Hado... 阅读全文
posted @ 2015-03-24 14:25 哥不是小萝莉 阅读(3309) 评论(7) 推荐(6) 编辑
摘要:1.概述 继续《那些年使用Hive踩过的坑》一文中的剩余部分,本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题。下面开始本篇文章的优化介绍。 2.介绍 首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题? 数据量大不是问题,数据倾斜是个问题。 job 阅读全文
posted @ 2015-03-22 02:16 哥不是小萝莉 阅读(84786) 评论(10) 推荐(22) 编辑
摘要:1.概述 上一章《那些年使用Hive踩过的坑》介绍了Hive的基本架构及原理,加下来介绍Hive的基本操作和一些注意事项。2.基本操作2.1Create Table2.1.1介绍 CREATE TABLE 创建一个指定名字的表。如果相同名字的表已经存在,则抛出异常;用户可以用 IF NOT EX... 阅读全文
posted @ 2015-03-20 17:54 哥不是小萝莉 阅读(27257) 评论(5) 推荐(11) 编辑
摘要:1.概述 上篇《高可用Hadoop平台-启航》博客已经让我们初步了解了Hadoop平台;接下来,我们对Hadoop做进一步的探索,一步一步的揭开Hadoop的神秘面纱。下面,我们开始赘述今天的探索之路。2.探索 在探索之前,我们来看一下Hadoop解决了什么问题,Hadoop就是解决了大数据(大... 阅读全文
posted @ 2015-03-18 10:54 哥不是小萝莉 阅读(1764) 评论(1) 推荐(4) 编辑
摘要:1.概述 最近有朋友问我Secondary NameNode的作用,是不是NameNode的备份?是不是为了防止NameNode的单点问题?确实,刚接触Hadoop,从字面上看,很容易会把Secondary NameNode当作备份节点;其实,这是一个误区,我们不能从字面来理解,阅读官方文档,我们... 阅读全文
posted @ 2015-03-16 17:23 哥不是小萝莉 阅读(11357) 评论(2) 推荐(5) 编辑
摘要:1.概述 在上篇博客中,我们搭建了《配置高可用Hadoop平台》,接下来我们就可以驾着Hadoop这艘巨轮在大数据的海洋中遨游了。工欲善其事,必先利其器。是的,没错;我们开发需要有开发工具(IDE);本篇文章,我打算讲解如何搭建和使用开发环境,以及编写和讲解WordCount这个例子,给即将在Ha... 阅读全文
posted @ 2015-03-13 14:59 哥不是小萝莉 阅读(2184) 评论(3) 推荐(6) 编辑
摘要:1.概述 在Hadoop2.x之后的版本,提出了解决单点问题的方案--HA(High Available 高可用)。这篇博客阐述如何搭建高可用的HDFS和YARN,执行步骤如下: 创建hadoop用户 安装JDK 配置hosts 安装SSH 关闭防火墙 修改时区 ZK(安装,启动,验证) HDFS+ 阅读全文
posted @ 2015-02-25 15:34 哥不是小萝莉 阅读(23286) 评论(17) 推荐(13) 编辑
摘要:1.概述 Hadoop已被公认为大数据分析领域无可争辩的王者,它专注与批处理。这种模型对许多情形(比如:为网页建立索引)已经足够,但还存在其他一些使用模型,它们需要来自高度动态的来源的实时信息。为了解决这个问题,就得借助Twitter推出得Storm。Storm不处理静态数据,但它处理预计会连续... 阅读全文
posted @ 2015-02-13 15:47 哥不是小萝莉 阅读(6788) 评论(0) 推荐(4) 编辑
摘要:1.概述 这个标题也是用血的教训换来的,希望对刚进入hive圈的童鞋和正在hive圈爬坑的童鞋有所帮助。打算分以下几个部分去描述:Hive的结构Hive的基本操作Hive SelectHive JoinHive UDFHive的M/R使用Hive注意点优化及优化详情优化总结调优的经常手段解决Hiv... 阅读全文
posted @ 2015-02-12 16:58 哥不是小萝莉 阅读(15270) 评论(7) 推荐(2) 编辑
摘要:1.概要 到这一步,若是按照前面到文章一步走来,不出意外,我想hadoop平台环境应该搭建OK了。下面我以自己工作中实际的案例来梳理一下整个流程。同时参考一些其他的文章来分析,由于很多网站的日志KPI都大同小异,故有些指标直接在文中赘述了。2.流程背景前言目录日志分析概述需求分析源码2.1 背景 ... 阅读全文
posted @ 2015-02-04 16:29 哥不是小萝莉 阅读(9791) 评论(8) 推荐(18) 编辑
摘要:1.概要1.1HBase的使用场景 大数据量 (100s TB级数据) 且有快速随机访问的需求。 例如淘宝的交易历史记录。数据量巨大无容置疑,面向普通用户的请求必然要即时响应。 容量的优雅扩展。 大数据的驱使,动态扩展系统容量的必须的。例如:webPage DB。 业务场景简单,不需要关系... 阅读全文
posted @ 2015-02-04 15:06 哥不是小萝莉 阅读(2922) 评论(0) 推荐(1) 编辑
摘要:1.概述 使用hadoop已经有一段时间了,从最开始懵懂到迷茫,再到各种阅读与写作,再到如今各种组合应用,逐渐已经离不开hadoop了,hadoop在大数据行业的成功,加速了它本身的发展,各大社区都能见到hadoop的身影。现在hadoop的家族成员已经达到20多个了。 因此,对自己所掌握的知识... 阅读全文
posted @ 2015-01-13 10:52 哥不是小萝莉 阅读(1047) 评论(0) 推荐(3) 编辑