随笔分类 -  Hadoop

摘要:每项技术的诞生都会由某种社会需求所驱动,Spark正是在实时计算的大量需求下诞生的。Spark借助其优秀的处理能力,可用性高,丰富的数据源支持等特点,在当前大数据领域变得火热,参与的开发者也越来越多。 阅读全文
posted @ 2018-09-29 17:53 泰山不老生 阅读(1139) 评论(0) 推荐(0) 编辑
摘要:随着近十年互联网的迅猛发展,越来越多的人融入了互联网——利用搜索引擎查询词条或问题;社交圈子从现实搬到了Facebook、Twitter、微信等社交平台上;女孩子们现在少了逛街,多了在各大电商平台上的购买;喜欢棋牌的人能够在对战平台上找到世界各地的玩家对弈。在国内随着网民数量的持续增加,造成互联网公司的数据在体量、产生速度、多样性等方面呈现出巨大的变化。本文将对Spark的背景、基础知识、模块设计进行介绍。 阅读全文
posted @ 2018-09-18 10:44 泰山不老生 阅读(2010) 评论(4) 推荐(0) 编辑
摘要:使用Hadoop进行离线分析或者数据挖掘的工程师,经常会需要对Hadoop集群或者mapreduce作业进行性能调优。性能调优的前提是需要能准确知道目前针对Hadoop集群或者mapreduce作业配置的参数。本文将针对这一需求,基于Hadoop开发一个简单实用的工具查询查看各种参数。 阅读全文
posted @ 2016-07-27 09:39 泰山不老生 阅读(596) 评论(0) 推荐(0) 编辑
摘要:我在测试mapreduce任务时,发现相比于使用Job.setNumReduceTasks(int)控制reduce任务数量而言,控制map任务数量一直是一个困扰我的问题。好在经过很多摸索与实验,终于梳理出来,希望对在工作中进行Hadoop进行性能调优的新人们有个借鉴。本文只针对FileInputFormat的任务划分进行分析,其它类型的InputFormat的划分方式又各有不同。虽然如此,都可以按照本文类似的方法进行分析和总结。 阅读全文
posted @ 2016-05-23 13:36 泰山不老生 阅读(3192) 评论(0) 推荐(2) 编辑
摘要:引文 学习Hadoop的同学们,一定知道如果运行Hadoop自带的各种例子,以大名鼎鼎的wordcount为例,你会输入以下命令: 当然,有些人还会用以下替代方式: 相比于原始的执行方式,使用jar命令方式,让我们不用再敲入繁琐的完整包路径。比如我们知道hadoop-mapreduce-exampl 阅读全文
posted @ 2016-04-29 13:16 泰山不老生 阅读(3273) 评论(0) 推荐(1) 编辑
摘要:说实在的,在阅读Hadoop YARN的源码之前,我对于java枚举的使用相形见绌。YARN中实现的事件在可读性、可维护性、可扩展性方面的工作都值得借鉴。 阅读全文
posted @ 2016-04-27 15:19 泰山不老生 阅读(706) 评论(0) 推荐(2) 编辑
摘要:本文旨在提供最基本的,可以用于在生产环境进行Hadoop、HDFS分布式环境的搭建,对自己是个总结和整理,也能方便新人学习使用。 阅读全文
posted @ 2016-04-19 13:50 泰山不老生 阅读(1464) 评论(0) 推荐(7) 编辑