2020 年 4月随笔档案 - hyunbar

Azkaban参数详解

摘要：1 参数类型综述 azkaban的工作流中的参数可以分为如下几个类型： Azkaban UI 页面输入参数环境变量参数 job作业文件中定义的参数工作流的用户定义的属性文件，上游作业传递给下游的参数工作流运行时产生的系统参数 job的common参数参数类型与其对应的参数范围如下：参数类型阅读全文

posted @ 2020-04-23 10:45 hyunbar 阅读(1424) 评论(0) 推荐(0) 编辑

Azkaban安装与配置

摘要：1.1 为什么需要工作流调度系统 1）一个完整的数据分析系统通常都是由大量任务单元组成： shell 脚本程序，java 程序，mapreduce 程序、hive 脚本等。2）各任务单元之间存在时间先后及前后依赖关系。3）为了很好地组织起这样的复杂执行计划，需要一个工作流调度系统来调度执行。例如，阅读全文

posted @ 2020-04-23 10:40 hyunbar 阅读(3068) 评论(0) 推荐(0) 编辑

MySQL总结二

摘要：WINDOWS服务 -- 启动MySQL net start mysql-- 创建Windows服务 sc create mysql binPath= mysqld_bin_path(注意：等号与值之间有空格) 连接与断开服务器 mysql -h 地址 -P 端口 -u 用户名 -p 密码SHOW 阅读全文

posted @ 2020-04-14 16:01 hyunbar 阅读(208) 评论(0) 推荐(0) 编辑

MySQL总结一

摘要：1、数据库基础知识数据保存在内存优点：存取速度快缺点：数据不能永久保存数据保存在文件优点：数据永久保存缺点：1）速度比内存操作慢，频繁的IO操作。2）查询数据不方便数据保存在数据库 1）数据永久保存 2）使用SQL语句，查询方便效率高。 3）管理数据方便 1.1 什么是SQL？结构化阅读全文

posted @ 2020-04-14 15:16 hyunbar 阅读(403) 评论(0) 推荐(0) 编辑

Flink 流处理API之Join

摘要：1、Window Join stream.join(otherStream) .where(<KeySelector>) .equalTo(<KeySelector>) .window(<WindowAssigner>) .apply(<JoinFunction>) 1.1 Tumbling Win 阅读全文

posted @ 2020-04-04 18:57 hyunbar 阅读(2190) 评论(0) 推荐(0) 编辑

Flink 流处理API之二

摘要：1、Transform 1.1 map val streamMap = stream.map { x => x * 2 } 1.2 flatmap flatMap的函数签名：def flatMap[A,B](as: List[A])(f: A ⇒ List[B]): List[B] 例如: flat 阅读全文

posted @ 2020-04-04 18:40 hyunbar 阅读(761) 评论(0) 推荐(0) 编辑

Flink 流处理API之一

摘要：1、 Environment 1.1 getExecutionEnvironment 创建一个执行环境，表示当前执行程序的上下文。如果程序是独立调用的，则此方法返回本地执行环境如果从命令行客户端调用程序以提交到集群，则此方法返回此集群的执行环境也就是说，getExecutionEnvironm 阅读全文

posted @ 2020-04-04 17:54 hyunbar 阅读(1345) 评论(0) 推荐(0) 编辑

Flink ProcessFunction API

摘要：我们之前学习的转换算子是无法访问事件的时间戳信息和水位线信息的。而这在一些应用场景下，极为重要。例如MapFunction这样的map转换算子就无法访问时间戳或者当前事件的事件时间。基于此，DataStream API提供了一系列的Low-Level转换算子。可以访问时间戳、watermark 阅读全文

posted @ 2020-04-04 15:13 hyunbar 阅读(2320) 评论(0) 推荐(0) 编辑

Flink Window

摘要：1、Window概述 streaming流式计算是一种被设计用于处理无限数据集的数据处理引擎，而无限数据集是指一种不断增长的本质上无限的数据集，而window是一种切割无限数据为有限块进行处理的手段。 Window是无限数据流处理的核心，Window将一个无限的stream拆分成有限大小的”buck 阅读全文

posted @ 2020-04-03 20:37 hyunbar 阅读(284) 评论(0) 推荐(0) 编辑

Spark性能优化

摘要：1、资源参数调优 1.1 运行时架构 1.1.1 Client ：客户端进程，负责提交作业 1.1.2 Driver/SC ：运行应用程序/业务代码的main()函数并且创建SparkContext，其中创建SparkContext的目的是为了准备Spark应用程序的运行环境。在Spark中由S 阅读全文

posted @ 2020-04-02 20:42 hyunbar 阅读(605) 评论(0) 推荐(0) 编辑

HBase 优化

摘要：1、JVM调优 1.1 内存调优一般安装好的HBase集群默认配置：Master和RegionServer 1G内存，而Memstore默认占用0.4，也就是400M。 export HBASE_MASTER_OPTS="$HBASE_MASTER_OPTS -Xms2g -Xmx2g" exp 阅读全文

posted @ 2020-04-02 15:07 hyunbar 阅读(440) 评论(1) 推荐(0) 编辑

Scala集合

摘要：1、概述 Scala 集合类系统地区分了可变的和不可变的集合可变集合可以在适当的地方被更新或扩展。这意味着你可以修改，添加，移除一个集合的元素不可变集合类，相比之下，永远不会改变。不过，你仍然可以模拟添加，移除或更新操作。但是这些操作将在每一种情况下都返回一个新的集合，同时使原来的集合不发生改变阅读全文

posted @ 2020-04-01 21:51 hyunbar 阅读(113) 评论(0) 推荐(0) 编辑

Spark常用算子

摘要：1、transformation算子 – 单value 2、 transformation算子 – 双value 3、 transformation算子 – key-value 4、action算子阅读全文

posted @ 2020-04-01 21:50 hyunbar 阅读(129) 评论(0) 推荐(0) 编辑

hyunbar

04 2020 档案

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论