南国故人（Wall）

2016年3月7日

摘要： spark sql 阅读全文

posted @ 2016-03-07 20:10 南国故人（Wall）阅读(19992) 评论(0) 推荐(0) 编辑

2014年11月30日

摘要： Spark SQL允许相关的查询如SQL，HiveQL或Scala运行在spark上。其核心组件是一个新的RDD：SchemaRDD，SchemaRDDs由行对象组成，并包含一个描述此行对象的每一列的数据类型的schema。SchemaRDD和传统关系型数据库的表类似。SchemaRDD可以通过已有... 阅读全文

posted @ 2014-11-30 18:52 南国故人（Wall）阅读(1541) 评论(0) 推荐(0) 编辑

2014年11月29日

RDD原理与详解

摘要： RDD详解原文连接 http://xiguada.org/spark_rdd/ RDD（Resilient Distributed Datasets弹性分布式数据集），是spark中最重要的概念，可以简单的把RDD理解成一个提供了许多操作接口的数据集合，和一般数据集不同的是，其实际数据分布存储于一阅读全文

posted @ 2014-11-29 15:07 南国故人（Wall）阅读(11142) 评论(0) 推荐(0) 编辑

2014年9月27日

Spark详解

摘要：原文连接 http://xiguada.org/spark/ Spark概述当前，MapReduce编程模型已经成为主流的分布式编程模型，它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。但是MapReduce也存在一些缺陷，如高延迟、不支持DAG模型、Map与R 阅读全文

posted @ 2014-09-27 16:35 南国故人（Wall）阅读(18907) 评论(0) 推荐(5) 编辑

2014年8月30日

Spark Streaming 执行流程

摘要：原文连接 http://xiguada.org/spark-streaming-run/ ‎ Spark Streaming 是基于spark的流式批处理引擎，其基本原理是把输入数据以某一时间间隔批量的处理，当批处理间隔缩短到秒级时，便可以用于处理实时数据流。本节描述了Spark Streamin 阅读全文

posted @ 2014-08-30 13:32 南国故人（Wall）阅读(3408) 评论(1) 推荐(0) 编辑

2014年7月26日

Namenode HA原理详解

摘要：社区hadoop2.2.0 release版本开始支持NameNode的HA，本文将详细描述NameNode HA内部的设计与实现。为什么要Namenode HA？1. NameNode High Availability即高可用。2. NameNode 很重要，挂掉会导致存储停止服务，无法进行数据... 阅读全文

posted @ 2014-07-26 16:00 南国故人（Wall）阅读(7045) 评论(0) 推荐(0) 编辑

2014年4月11日

Spark架构与作业执行流程简介

摘要： Spark架构与作业执行流程简介 Local模式运行Spark最简单的方法是通过Local模式（即伪分布式模式）。运行命令为：./bin/run-example org.apache.spark.examples.SparkPi local 基于standalone的Spark架构与作业执行流程阅读全文

posted @ 2014-04-11 13:34 南国故人（Wall）阅读(25375) 评论(1) 推荐(5) 编辑

2014年4月4日

Spark 开发环境搭建

摘要：原文见 http://xiguada.org/spark-develop/ 本文基于Spark 0.9.0，由于它基于Scala 2.10，因此必须安装Scala 2.10，否则将无法运行Spark作业。由于在windows环境下不方便执行命令行操作，因此建议在Linux环境下搭建Spark开发环境阅读全文

posted @ 2014-04-04 17:40 南国故人（Wall）阅读(1734) 评论(0) 推荐(0) 编辑

2014年3月13日

YARN Application执行流程

摘要：原文见 http://xiguada.org/yarn-application_run/ 本节简单描述了一个Application在YARN上的执行流程，希望对初识YARN的同学提供一些帮助。图1 Application执行流程客户端提交作业到RM。 RM在调度器中创建一个新的AppAttemp 阅读全文

posted @ 2014-03-13 11:07 南国故人（Wall）阅读(2291) 评论(3) 推荐(1) 编辑

2014年3月10日

[NM 状态机2] Container状态机详解

摘要：概述前面已经分析了RM的状态机，接下来将分析NM的状态机，NM状态机包括Container，Application，LocalizedResource三个，其中Container相对较复杂。现在我们分析Container的状态机。另外3展示了LocalizedResource的状态机图，由于其状态机比较简单，这里不再详细分析，读者可以自行查看相关代码。本文的分析基于社区Apache Hadoop最新的2.3.0版本。NodeManager维护着本节点执行的任务（container），从图1中可以看出其维护了containerID，user，resource等信息。Container的实现类为C 阅读全文

posted @ 2014-03-10 16:25 南国故人（Wall）阅读(2223) 评论(0) 推荐(0) 编辑

南国故人

公告