返回顶部 Fork me on GitHub

07 2018 档案

摘要:界面介绍 首页有四个菜单 projects:最重要的部分,创建一个工程,所有flows将在工程中运行。 scheduling:显示定时任务 executing:显示当前运行的任务 history:显示历史运行任务 介绍projects部分 概念介绍 创建工程:创建之前我们先了解下之间的关系,一个工程 阅读全文
posted @ 2018-07-22 21:22 Frankdeng 阅读(17885) 评论(0) 推荐(1) 编辑
摘要:1、软件介绍 Azkaban Web 服务器:azkaban-web-server-2.5.0.tar.gz Azkaban Excutor 执行服务器:azkaban-executor-server-2.5.0.tar.gz Azkaban 初始化脚本文件:azkaban-sql-script-2 阅读全文
posted @ 2018-07-22 20:07 Frankdeng 阅读(3004) 评论(1) 推荐(0) 编辑
摘要:一、为什么需要工作流调度器 1、一个完整的数据分析系统通常都是由大量任务单元组成: shell 脚本程序,java 程序,mapreduce 程序、hive 脚本等 2、各任务单元之间存在时间先后及前后依赖关系 3、为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行 例如,我们可能 阅读全文
posted @ 2018-07-22 19:01 Frankdeng 阅读(2373) 评论(1) 推荐(0) 编辑
摘要:Spark Streaming + Kafka集成指南 Kafka项目在版本0.8和0.10之间引入了一个新的消费者API,因此有两个独立的相应Spark Streaming包可用。请选择正确的包, 请注意,0.8集成与后来的0.9和0.10代理兼容,但0.10集成与早期的代理不兼容。 注意:从Sp 阅读全文
posted @ 2018-07-15 23:49 Frankdeng 阅读(14999) 评论(3) 推荐(2) 编辑
摘要:一、图概念术语 1.1 基本概念 图是由顶点集合(vertex)及顶点间的关系集合(边edge)组成的一种数据结构。 这里的图并非指代数中的图。图可以对事物以及事物之间的关系建模,图可以用来表示自然发生的连接数据,如:社交网络、互联网web页面 常用的应用有:在地图应用中找到最短路径、基于与他人的相 阅读全文
posted @ 2018-07-15 22:22 Frankdeng 阅读(9655) 评论(3) 推荐(1) 编辑
摘要:Spark最吸引开发者的就是简单易用、跨语言(Scala, Java, Python, and R)的API。 本文主要讲解Apache Spark 2.0中RDD,DataFrame和Dataset三种API;它们各自适合的使用场景;它们的性能和优化;列举使用DataFrame和DataSet代替 阅读全文
posted @ 2018-07-15 22:03 Frankdeng 阅读(4536) 评论(0) 推荐(0) 编辑
摘要:一、启动脚本分析 独立部署模式下,主要由master和slaves组成,master可以利用zk实现高可用性,其driver,work,app等信息可以持久化到zk上;slaves由一台至多台主机构成。Driver通过向Master申请资源获取运行环境。 启动master和slaves主要是执行/u 阅读全文
posted @ 2018-07-15 21:47 Frankdeng 阅读(2141) 评论(0) 推荐(1) 编辑
摘要:一、SparkCore、SparkSQL和SparkStreaming的类似之处 二、SparkStreaming的运行流程 2.1 图解说明 2.2 文字解说 1、我们在集群中的其中一台机器上提交我们的Application Jar,然后就会产生一个Application,开启一个Driver,然 阅读全文
posted @ 2018-07-15 20:15 Frankdeng 阅读(1253) 评论(0) 推荐(0) 编辑
摘要:一 自定义函数UDF 在Spark中,也支持Hive中的自定义函数。自定义函数大致可以分为三种: UDF(User-Defined-Function),即最基本的自定义函数,类似to_char,to_date等 UDAF(User- Defined Aggregation Funcation),用户 阅读全文
posted @ 2018-07-15 18:55 Frankdeng 阅读(2823) 评论(0) 推荐(0) 编辑
摘要:一、SparkSQL的进化之路 1.0以前: Shark 1.1.x开始:SparkSQL(只是测试性的) SQL 1.3.x: SparkSQL(正式版本)+Dataframe 1.5.x: SparkSQL 钨丝计划 1.6.x: SparkSQL+DataFrame+DataSet(测试版本) 阅读全文
posted @ 2018-07-15 16:46 Frankdeng 阅读(20744) 评论(0) 推荐(0) 编辑
摘要:一、分区的概念 分区是RDD内部并行计算的一个计算单元,RDD的数据集在逻辑上被划分为多个分片,每一个分片称为分区,分区的格式决定了并行计算的粒度,而每个分区的数值计算都是在一个任务中进行的,因此任务的个数,也是由RDD(准确来说是作业最后一个RDD)的分区数决定。 二、为什么要进行分区 数据分区, 阅读全文
posted @ 2018-07-15 15:05 Frankdeng 阅读(2859) 评论(1) 推荐(0) 编辑
摘要:一 调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。 1.1数据倾斜发生时的现象 绝大多数task执行得都非常快,但个别task执行极慢。比如 阅读全文
posted @ 2018-07-14 23:22 Frankdeng 阅读(3863) 评论(2) 推荐(1) 编辑
摘要:一、概述 大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。但是也必须提醒大家的是,影响一个Spark作业性能的因素,主要还是代码开发、资源参数以及数据倾 阅读全文
posted @ 2018-07-14 19:08 Frankdeng 阅读(1818) 评论(0) 推荐(1) 编辑
摘要:一JVM结构 1 Java内存结构 JVM内存结构主要有三大块:堆内存、方法区和栈。 堆内存是JVM中最大的一块由年轻代和老年代组成,而年轻代内存又被分成三部分,Eden空间、From Survivor空间、To Survivor空间,默认情况下年轻代按照8:1:1的比例来分配; 方法区存储类信息、 阅读全文
posted @ 2018-07-14 17:54 Frankdeng 阅读(3650) 评论(0) 推荐(0) 编辑
摘要:一、概述 Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络,抛砖引玉,引出读者对这个话题的深入探讨。本文中阐述的原理基于 阅读全文
posted @ 2018-07-14 16:33 Frankdeng 阅读(17052) 评论(1) 推荐(5) 编辑
摘要:Spark调优主要分为开发调优、资源调优、数据倾斜调优、shuffle调优几个部分。开发调优和资源调优是所有Spark作业都需要注意和遵循的一些基本原则,是高性能Spark作业的基础;数据倾斜调优,主要讲解了一套完整的用来解决Spark作业数据倾斜的解决方案;shuffle调优,面向的是对Spark 阅读全文
posted @ 2018-07-14 15:21 Frankdeng 阅读(3355) 评论(1) 推荐(0) 编辑
摘要:一、Spark中的基本概念 (1)Application:表示你的应用程序 (2)Driver:表示main()函数,创建SparkContext。由SparkContext负责与ClusterManager通信,进行资源的申请,任务的分配和监控等。程序执行完毕后关闭SparkContext (3) 阅读全文
posted @ 2018-07-14 14:18 Frankdeng 阅读(48374) 评论(5) 推荐(7) 编辑
摘要:一、Hive 执行过程概述 1、概述 (1) Hive 将 HQL 转换成一组操作符(Operator),比如 GroupByOperator, JoinOperator 等 (2)操作符 Operator 是 Hive 的最小处理单元 (3)每个操作符代表一个 HDFS 操作或者 MapReduc 阅读全文
posted @ 2018-07-14 12:04 Frankdeng 阅读(5656) 评论(1) 推荐(0) 编辑
摘要:Transformation算子 基本的初始化 java scala 一、map、flatMap、mapParations、mapPartitionsWithIndex 1.1 map (1) 使用Java7进行编写 map十分容易理解,他是将源JavaRDD的一个一个元素的传入call方法,并经过 阅读全文
posted @ 2018-07-14 00:16 Frankdeng 阅读(1848) 评论(0) 推荐(1) 编辑
摘要:一、RDD的概述 1.1 什么是RDD RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行 阅读全文
posted @ 2018-07-13 22:37 Frankdeng 阅读(12215) 评论(1) 推荐(4) 编辑
摘要:一 下载安装包 1 官方下载 官方下载地址:http://spark.apache.org/downloads.html 2 安装前提 Java8 安装成功 zookeeper 安装参考:CentOS7.5搭建Zookeeper3.4.12集群 hadoop 安装参考:CentOS7.5搭建Hado 阅读全文
posted @ 2018-07-12 19:52 Frankdeng 阅读(6771) 评论(0) 推荐(1) 编辑
摘要:一、官网介绍 1 什么是Spark 官网地址:http://spark.apache.org/ Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce 阅读全文
posted @ 2018-07-08 22:34 Frankdeng 阅读(3142) 评论(0) 推荐(2) 编辑
摘要:一.下载安装 1.1Python下载 Python官网:https://www.python.org/ 1.2Python安装 1.2.1 Linux 平台安装 以下为在Unix & Linux 平台上安装 Python 的简单步骤: 打开WEB浏览器访问https://www.python.org 阅读全文
posted @ 2018-07-05 23:56 Frankdeng 阅读(8911) 评论(0) 推荐(0) 编辑
摘要:一 MongoDB简介 MongoDB 是一个基于分布式文件存储的数据库。由 C++ 语言编写。旨在为 WEB 应用提供可扩展的高性能数据存储解决方案。 MongoDB 是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。 MongoDB中的记录是一个文档, 阅读全文
posted @ 2018-07-05 22:37 Frankdeng 阅读(3127) 评论(0) 推荐(1) 编辑

点击右上角即可分享
微信分享提示