Hadoop - 随笔分类 - 泰山不老生

Spark2.1.0模型设计与基本架构（下）

摘要：每项技术的诞生都会由某种社会需求所驱动，Spark正是在实时计算的大量需求下诞生的。Spark借助其优秀的处理能力，可用性高，丰富的数据源支持等特点，在当前大数据领域变得火热，参与的开发者也越来越多。阅读全文

posted @ 2018-09-29 17:53 泰山不老生阅读(1139) 评论(0) 推荐(0) 编辑

Spark2.1.0模型设计与基本架构（上）

摘要：随着近十年互联网的迅猛发展，越来越多的人融入了互联网——利用搜索引擎查询词条或问题；社交圈子从现实搬到了Facebook、Twitter、微信等社交平台上；女孩子们现在少了逛街，多了在各大电商平台上的购买；喜欢棋牌的人能够在对战平台上找到世界各地的玩家对弈。在国内随着网民数量的持续增加，造成互联网公司的数据在体量、产生速度、多样性等方面呈现出巨大的变化。本文将对Spark的背景、基础知识、模块设计进行介绍。阅读全文

posted @ 2018-09-18 10:44 泰山不老生阅读(2010) 评论(4) 推荐(0) 编辑

Hadoop2.6.0配置参数查看小工具

摘要：使用Hadoop进行离线分析或者数据挖掘的工程师，经常会需要对Hadoop集群或者mapreduce作业进行性能调优。性能调优的前提是需要能准确知道目前针对Hadoop集群或者mapreduce作业配置的参数。本文将针对这一需求，基于Hadoop开发一个简单实用的工具查询查看各种参数。阅读全文

posted @ 2016-07-27 09:39 泰山不老生阅读(596) 评论(0) 推荐(0) 编辑

Hadoop2.6.0的FileInputFormat的任务切分原理分析（即如何控制FileInputFormat的map任务数量）

摘要：我在测试mapreduce任务时，发现相比于使用Job.setNumReduceTasks(int)控制reduce任务数量而言，控制map任务数量一直是一个困扰我的问题。好在经过很多摸索与实验，终于梳理出来，希望对在工作中进行Hadoop进行性能调优的新人们有个借鉴。本文只针对FileInputFormat的任务划分进行分析，其它类型的InputFormat的划分方式又各有不同。虽然如此，都可以按照本文类似的方法进行分析和总结。阅读全文

posted @ 2016-05-23 13:36 泰山不老生阅读(3192) 评论(0) 推荐(2) 编辑

Hadoop2.6.0子项目hadoop-mapreduce-examples的简单介绍

摘要：引文学习Hadoop的同学们，一定知道如果运行Hadoop自带的各种例子，以大名鼎鼎的wordcount为例，你会输入以下命令：当然，有些人还会用以下替代方式：相比于原始的执行方式，使用jar命令方式，让我们不用再敲入繁琐的完整包路径。比如我们知道hadoop-mapreduce-exampl 阅读全文

posted @ 2016-04-29 13:16 泰山不老生阅读(3273) 评论(0) 推荐(1) 编辑

Hadoop2.6.0的事件分类与实现

摘要：说实在的，在阅读Hadoop YARN的源码之前，我对于java枚举的使用相形见绌。YARN中实现的事件在可读性、可维护性、可扩展性方面的工作都值得借鉴。阅读全文

posted @ 2016-04-27 15:19 泰山不老生阅读(706) 评论(0) 推荐(2) 编辑

Linux下Hadoop2.6.0集群环境的搭建

摘要：本文旨在提供最基本的，可以用于在生产环境进行Hadoop、HDFS分布式环境的搭建，对自己是个总结和整理，也能方便新人学习使用。阅读全文

posted @ 2016-04-19 13:50 泰山不老生阅读(1464) 评论(0) 推荐(7) 编辑

泰山不老生

随笔分类 - Hadoop

公告