摘要: RDD的操作 1.1 概述 RDD整体包含两大类操作 transformation 从现有中创建一个新的数据集 action 在对数据集做一定程度的计算后将结果返回 对于所有的transformation,都是Lazy的,也就是说它不会立即执行,只是单纯的记住怎么样从原来的数据集进行转换的逻辑而已, 阅读全文
posted @ 2018-06-29 22:52 NightPxy 阅读(682) 评论(0) 推荐(0) 编辑
摘要: 1.RDD的创建 1.1 从一个本地的Scala集合创建 1.2 从一个外部的存储系统中创建 这里外部系统,指的是任何Hadoop(InputFormat)支持的存储系统.比如本地文本文件,HDFS,HBase,S3等等 1.2.1 textFile 1.2.2 wholeTextFiles who 阅读全文
posted @ 2018-06-29 22:41 NightPxy 阅读(1600) 评论(0) 推荐(0) 编辑
摘要: 1.什么是RDD Resilient Distributed Dataset(RDD),弹性的分布式数据集. 分布式数据集,是指数据集会以patition块的方式,存储在多个节点上. 弹性,体现在Spark计算过程中将数据的抽象封装,依此带来的各种重试机制,内存和磁盘切换,高自由的分片函数等 Had 阅读全文
posted @ 2018-06-28 21:39 NightPxy 阅读(179) 评论(0) 推荐(0) 编辑
摘要: 1.基础环境准备 Spark 2.3.1 编译需要 Maven 3.3.9 和 Java 8+ (从官网我们得知Java7已经在Spark2.2.0开始就已经不支持了),这里已提前准备,跳过. 另 Maven需要将内存使用调高(防止编译过程内存超标报错) Spark编译时最好把Git装上.(方便后面 阅读全文
posted @ 2018-06-26 22:28 NightPxy 阅读(403) 评论(0) 推荐(0) 编辑
摘要: 占位置 阅读全文
posted @ 2018-06-26 21:39 NightPxy 阅读(159) 评论(0) 推荐(0) 编辑
摘要: 1.HiveSQL优化 1.1 中心思想 这里以Hive On MapReduce 为例,Hive On Spark等思路也是一致的. HiveSQL会最终转化为MapReduce进行执行,那么优化的前提是至少对MapReduce有基本的了解 其次是必须了解HiveSQL会转化成怎么样的MapRed 阅读全文
posted @ 2018-06-26 17:30 NightPxy 阅读(6291) 评论(0) 推荐(1) 编辑
摘要: 前一篇介绍了线上应用故障排查之一:高CPU占用,这篇主要分析高内存占用故障的排查。 搞Java开发的,经常会碰到下面两种异常: 1、java.lang.OutOfMemoryError: PermGen space 2、java.lang.OutOfMemoryError: Java heap sp 阅读全文
posted @ 2018-06-25 16:03 NightPxy 阅读(329) 评论(0) 推荐(0) 编辑
摘要: 以我们最近出现的一个实际故障为例,介绍怎么定位和解决这类问题。 根据top命令,发现PID为28555的Java进程占用CPU高达200%,出现故障。 通过ps aux | grep PID命令,可以进一步确定是tomcat进程出现了问题。但是,怎么定位到具体线程或者代码呢? 首先显示线程列表: p 阅读全文
posted @ 2018-06-25 16:02 NightPxy 阅读(160) 评论(0) 推荐(0) 编辑
摘要: YARN作为资源调度管理组件,对YARN的的优化主要呈现在CPU和内存两方面 1.内存篇 在YARN集群中,平衡内存,CPU和磁盘的资源是比较重要的.一般来说,每两个Container使用一块磁盘和一个CPU核可以是使资源得到比较充分的利用 对YARN而言的内存可用资源,是指在排除操作系统或其它应用 阅读全文
posted @ 2018-06-23 23:34 NightPxy 阅读(304) 评论(0) 推荐(0) 编辑
摘要: Yarn的资源调度策略 理想情况下,我们对Yarn的资源申请应该立即得到满足,但实际情况下整个集群的资源总量是有限的,这时就依赖资源调度器对资源进行调度了. 但在实际过程中,资源的调度策略本身就是一个难题,很难有一个完美的调度策略可以适用与所有的情况,为此Yarn提供了三种调度器让我们自行选择适用 阅读全文
posted @ 2018-06-23 23:32 NightPxy 阅读(1926) 评论(0) 推荐(0) 编辑