NightPxy

2018年6月29日

摘要： RDD的操作 1.1 概述 RDD整体包含两大类操作 transformation 从现有中创建一个新的数据集 action 在对数据集做一定程度的计算后将结果返回对于所有的transformation,都是Lazy的,也就是说它不会立即执行,只是单纯的记住怎么样从原来的数据集进行转换的逻辑而已, 阅读全文

posted @ 2018-06-29 22:52 NightPxy 阅读(695) 评论(0) 推荐(0) 编辑

[Spark]-RDD之创建

摘要： 1.RDD的创建 1.1 从一个本地的Scala集合创建 1.2 从一个外部的存储系统中创建这里外部系统,指的是任何Hadoop(InputFormat)支持的存储系统.比如本地文本文件,HDFS,HBase,S3等等 1.2.1 textFile 1.2.2 wholeTextFiles who 阅读全文

posted @ 2018-06-29 22:41 NightPxy 阅读(1602) 评论(0) 推荐(0) 编辑

2018年6月28日

[Spark]-RDD初识

摘要： 1.什么是RDD Resilient Distributed Dataset(RDD),弹性的分布式数据集. 分布式数据集,是指数据集会以patition块的方式,存储在多个节点上. 弹性,体现在Spark计算过程中将数据的抽象封装,依此带来的各种重试机制,内存和磁盘切换,高自由的分片函数等 Had 阅读全文

posted @ 2018-06-28 21:39 NightPxy 阅读(179) 评论(0) 推荐(0) 编辑

2018年6月26日

[Spark]-编译(2.3.1)&部署(YARN-Cluster)

摘要： 1.基础环境准备 Spark 2.3.1 编译需要 Maven 3.3.9 和 Java 8+ (从官网我们得知Java7已经在Spark2.2.0开始就已经不支持了),这里已提前准备,跳过. 另 Maven需要将内存使用调高(防止编译过程内存超标报错) Spark编译时最好把Git装上.(方便后面阅读全文

posted @ 2018-06-26 22:28 NightPxy 阅读(406) 评论(0) 推荐(0) 编辑

[Spark]-背景

摘要：占位置阅读全文

posted @ 2018-06-26 21:39 NightPxy 阅读(159) 评论(0) 推荐(0) 编辑

[Hive]-常规优化以及执行计划解析

摘要： 1.HiveSQL优化 1.1 中心思想这里以Hive On MapReduce 为例,Hive On Spark等思路也是一致的. HiveSQL会最终转化为MapReduce进行执行,那么优化的前提是至少对MapReduce有基本的了解其次是必须了解HiveSQL会转化成怎么样的MapRed 阅读全文

posted @ 2018-06-26 17:30 NightPxy 阅读(6331) 评论(0) 推荐(1) 编辑

2018年6月25日

[转载]线上应用故障排查之一：高memory占用

摘要：前一篇介绍了线上应用故障排查之一：高CPU占用，这篇主要分析高内存占用故障的排查。搞Java开发的，经常会碰到下面两种异常： 1、java.lang.OutOfMemoryError: PermGen space 2、java.lang.OutOfMemoryError: Java heap sp 阅读全文

posted @ 2018-06-25 16:03 NightPxy 阅读(330) 评论(0) 推荐(0) 编辑

[转载]线上应用故障排查之一：高CPU占用

摘要：以我们最近出现的一个实际故障为例，介绍怎么定位和解决这类问题。根据top命令，发现PID为28555的Java进程占用CPU高达200%，出现故障。通过ps aux | grep PID命令，可以进一步确定是tomcat进程出现了问题。但是，怎么定位到具体线程或者代码呢？首先显示线程列表: p 阅读全文

posted @ 2018-06-25 16:02 NightPxy 阅读(161) 评论(0) 推荐(0) 编辑

2018年6月23日

[Hadoop]-调优篇-YARN

摘要： YARN作为资源调度管理组件,对YARN的的优化主要呈现在CPU和内存两方面 1.内存篇在YARN集群中,平衡内存,CPU和磁盘的资源是比较重要的.一般来说,每两个Container使用一块磁盘和一个CPU核可以是使资源得到比较充分的利用对YARN而言的内存可用资源,是指在排除操作系统或其它应用阅读全文

posted @ 2018-06-23 23:34 NightPxy 阅读(313) 评论(0) 推荐(0) 编辑

[Hadoop]-Yarn-调度器篇

摘要： Yarn的资源调度策略理想情况下,我们对Yarn的资源申请应该立即得到满足,但实际情况下整个集群的资源总量是有限的,这时就依赖资源调度器对资源进行调度了. 但在实际过程中,资源的调度策略本身就是一个难题,很难有一个完美的调度策略可以适用与所有的情况,为此Yarn提供了三种调度器让我们自行选择适用阅读全文

posted @ 2018-06-23 23:32 NightPxy 阅读(1975) 评论(0) 推荐(0) 编辑

公告