摘要: 学习一个工具的最好途径,就是使用它。在IT领域,在深入了解一个系统的原理、实现细节之前,应当先准备好它的运行环境或者源码阅读环境。如果能在实际环境下安装和运行Spark,显然能够提升读者对于Spark的一些感受,对系统能有个大体的印象,有经验的工程师甚至能够猜出一些Spark在实现过程中采用的设计模式、编程模型。在准备好基本的Spark运行环境后应当实践一下,以便于在使用过程中提升读者对于Spark最直接的感触!本文通过Spark的基本使用,让读者对Spark能有初步的认识,便于引导读者逐步深入学习。 阅读全文
posted @ 2018-05-21 15:48 泰山不老生 阅读(1800) 评论(0) 推荐(1) 编辑
摘要: 学习一个工具的最好途径,就是使用它。在IT领域,在深入了解一个系统的原理、实现细节之前,应当先准备好它的运行环境或者源码阅读环境。如果能在实际环境下安装和运行Spark,显然能够提升读者对于Spark的一些感受,对系统能有个大体的印象,有经验的工程师甚至能够猜出一些Spark在实现过程中采用的设计模式、编程模型。 阅读全文
posted @ 2018-05-21 10:14 泰山不老生 阅读(1257) 评论(0) 推荐(0) 编辑
摘要: 近年来随着Spark的火热,Spark本身使用的开发语言Scala、用到的分布式内存文件系统Tachyon(现已更名为Alluxio)以及基于Actor并发编程模型的Akka都引起了大家的注意。了解过Akka或者Actor的人应该知道,这的确是一个很不错的框架,按照Akka官网的描述——使用Akka使得构建强有力的并发与分布式应用将更加容易。由于历史原因,很多Web系统在开发分布式服务时首先会选择RMI(Remote Method Invoke ,远程方法调用)、RPC(Remote Procedure Call Protocol,远程过程调用)或者使用JMS(Java Messaging Service,Java消息服务)。 阅读全文
posted @ 2018-03-16 14:45 泰山不老生 阅读(5077) 评论(0) 推荐(0) 编辑
摘要: 使用Hadoop进行离线分析或者数据挖掘的工程师,经常会需要对Hadoop集群或者mapreduce作业进行性能调优。性能调优的前提是需要能准确知道目前针对Hadoop集群或者mapreduce作业配置的参数。本文将针对这一需求,基于Hadoop开发一个简单实用的工具查询查看各种参数。 阅读全文
posted @ 2016-07-27 09:39 泰山不老生 阅读(589) 评论(0) 推荐(0) 编辑
摘要: 我在测试mapreduce任务时,发现相比于使用Job.setNumReduceTasks(int)控制reduce任务数量而言,控制map任务数量一直是一个困扰我的问题。好在经过很多摸索与实验,终于梳理出来,希望对在工作中进行Hadoop进行性能调优的新人们有个借鉴。本文只针对FileInputFormat的任务划分进行分析,其它类型的InputFormat的划分方式又各有不同。虽然如此,都可以按照本文类似的方法进行分析和总结。 阅读全文
posted @ 2016-05-23 13:36 泰山不老生 阅读(3180) 评论(0) 推荐(2) 编辑
摘要: 引文 学习Hadoop的同学们,一定知道如果运行Hadoop自带的各种例子,以大名鼎鼎的wordcount为例,你会输入以下命令: 当然,有些人还会用以下替代方式: 相比于原始的执行方式,使用jar命令方式,让我们不用再敲入繁琐的完整包路径。比如我们知道hadoop-mapreduce-exampl 阅读全文
posted @ 2016-04-29 13:16 泰山不老生 阅读(3241) 评论(0) 推荐(1) 编辑
摘要: 说实在的,在阅读Hadoop YARN的源码之前,我对于java枚举的使用相形见绌。YARN中实现的事件在可读性、可维护性、可扩展性方面的工作都值得借鉴。 阅读全文
posted @ 2016-04-27 15:19 泰山不老生 阅读(700) 评论(0) 推荐(2) 编辑
摘要: 本文旨在提供最基本的,可以用于在生产环境进行Hadoop、HDFS分布式环境的搭建,对自己是个总结和整理,也能方便新人学习使用。 阅读全文
posted @ 2016-04-19 13:50 泰山不老生 阅读(1454) 评论(0) 推荐(7) 编辑
摘要: Akka是Actor编程模型的高级类库,类似于JDK 1.5之后越来越丰富的并发工具包,简化了程序员并发编程的难度。Akka是一款提供了用于构建高并发的、分布式的、可伸缩的、基于Java虚拟机的消息驱动应用的工具集和运行时环境。 阅读全文
posted @ 2016-04-13 13:23 泰山不老生 阅读(2583) 评论(0) 推荐(1) 编辑
摘要: 《深入理解Spark:核心思想与源码分析》一书前言的内容请看链接《深入理解SPARK:核心思想与源码分析》一书正式出版上市 《深入理解Spark:核心思想与源码分析》一书第一章的内容请看链接《第1章 环境准备》 《深入理解Spark:核心思想与源码分析》一书第二章的内容请看链接《第2章 SPARK设 阅读全文
posted @ 2016-03-23 14:44 泰山不老生 阅读(4581) 评论(0) 推荐(0) 编辑