04 2020 档案

摘要:1 参数类型综述 azkaban的工作流中的参数可以分为如下几个类型: Azkaban UI 页面输入参数 环境变量参数 job作业文件中定义的参数 工作流的用户定义的属性文件,上游作业传递给下游的参数 工作流运行时产生的系统参数 job的common参数 参数类型与其对应的参数范围如下: 参数类型 阅读全文
posted @ 2020-04-23 10:45 hyunbar 阅读(1424) 评论(0) 推荐(0) 编辑
摘要:1.1 为什么需要工作流调度系统 1)一个完整的数据分析系统通常都是由大量任务单元组成: shell 脚本程序,java 程序,mapreduce 程序、hive 脚本等。2)各任务单元之间存在时间先后及前后依赖关系。3)为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行。 例如, 阅读全文
posted @ 2020-04-23 10:40 hyunbar 阅读(3068) 评论(0) 推荐(0) 编辑
摘要:WINDOWS服务 -- 启动MySQL net start mysql-- 创建Windows服务 sc create mysql binPath= mysqld_bin_path(注意:等号与值之间有空格) 连接与断开服务器 mysql -h 地址 -P 端口 -u 用户名 -p 密码​SHOW 阅读全文
posted @ 2020-04-14 16:01 hyunbar 阅读(208) 评论(0) 推荐(0) 编辑
摘要:1、数据库基础知识 数据保存在内存 优点:存取速度快 缺点:数据不能永久保存 数据保存在文件 优点:数据永久保存 缺点:1)速度比内存操作慢,频繁的IO操作。2)查询数据不方便 数据保存在数据库 1)数据永久保存 2)使用SQL语句,查询方便效率高。 3)管理数据方便 1.1 什么是SQL? 结构化 阅读全文
posted @ 2020-04-14 15:16 hyunbar 阅读(403) 评论(0) 推荐(0) 编辑
摘要:1、Window Join stream.join(otherStream) .where(<KeySelector>) .equalTo(<KeySelector>) .window(<WindowAssigner>) .apply(<JoinFunction>) 1.1 Tumbling Win 阅读全文
posted @ 2020-04-04 18:57 hyunbar 阅读(2190) 评论(0) 推荐(0) 编辑
摘要:1、Transform 1.1 map val streamMap = stream.map { x => x * 2 } 1.2 flatmap flatMap的函数签名:def flatMap[A,B](as: List[A])(f: A ⇒ List[B]): List[B] 例如: flat 阅读全文
posted @ 2020-04-04 18:40 hyunbar 阅读(761) 评论(0) 推荐(0) 编辑
摘要:1、 Environment 1.1 getExecutionEnvironment 创建一个执行环境,表示当前执行程序的上下文。 如果程序是独立调用的,则此方法返回本地执行环境 如果从命令行客户端调用程序以提交到集群,则此方法返回此集群的执行环境 也就是说,getExecutionEnvironm 阅读全文
posted @ 2020-04-04 17:54 hyunbar 阅读(1345) 评论(0) 推荐(0) 编辑
摘要:我们之前学习的转换算子是无法访问事件的时间戳信息和水位线信息的。而这在一些应用场景下,极为重要。 例如MapFunction这样的map转换算子就无法访问时间戳或者当前事件的事件时间。 基于此,DataStream API提供了一系列的Low-Level转换算子。 可以访问时间戳、watermark 阅读全文
posted @ 2020-04-04 15:13 hyunbar 阅读(2320) 评论(0) 推荐(0) 编辑
摘要:1、Window概述 streaming流式计算是一种被设计用于处理无限数据集的数据处理引擎,而无限数据集是指一种不断增长的本质上无限的数据集,而window是一种切割无限数据为有限块进行处理的手段。 Window是无限数据流处理的核心,Window将一个无限的stream拆分成有限大小的”buck 阅读全文
posted @ 2020-04-03 20:37 hyunbar 阅读(284) 评论(0) 推荐(0) 编辑
摘要:1、资源参数调优 1.1 运行时架构 1.1.1 Client : 客户端进程,负责提交作业 1.1.2 Driver/SC : 运行应用程序/业务代码的main()函数并且创建SparkContext,其中创建SparkContext的目的是为了准备Spark应用程序的运行环境。在Spark中由S 阅读全文
posted @ 2020-04-02 20:42 hyunbar 阅读(605) 评论(0) 推荐(0) 编辑
摘要:1、JVM调优 1.1 内存调优 一般安装好的HBase集群 默认配置:Master和RegionServer 1G内存,而Memstore默认占用0.4,也就是400M。 export HBASE_MASTER_OPTS="$HBASE_MASTER_OPTS -Xms2g -Xmx2g" exp 阅读全文
posted @ 2020-04-02 15:07 hyunbar 阅读(440) 评论(1) 推荐(0) 编辑
摘要:1、概述 Scala 集合类系统地区分了可变的和不可变的集合 可变集合可以在适当的地方被更新或扩展。这意味着你可以修改,添加,移除一个集合的元素 不可变集合类,相比之下,永远不会改变。不过,你仍然可以模拟添加,移除或更新操作。但是这些操作将在每一种情况下都返回一个新的集合,同时使原来的集合不发生改变 阅读全文
posted @ 2020-04-01 21:51 hyunbar 阅读(113) 评论(0) 推荐(0) 编辑
摘要:1、transformation算子 – 单value 2、 transformation算子 – 双value 3、 transformation算子 – key-value 4、action算子 阅读全文
posted @ 2020-04-01 21:50 hyunbar 阅读(129) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示