摘要: 12.1 配置原则 如何发挥集群最佳性能 原则1:CPU核数分配原则 数据节点:建议预留2~4个核给OS和其他进程(数据库,HBase等)外,其他的核分配给YARN。 控制节点:由于运行的进程较多,建议预留6~8个核。 原则2:内存分配 除了分配给OS、其他服务的内存外,剩余的资源应尽量分配给YAR 阅读全文
posted @ 2020-09-20 13:39 花未全开*月未圆 阅读(1432) 评论(0) 推荐(0) 编辑
摘要: Flink Table 和 SQL 内置了很多 SQL 中支持的函数;如果有无法满足的需要,则可以实现用户自定义的函数(UDF)来解决。 5.1 系统内置函数 Flink Table API 和 SQL 为用户提供了一组用于数据转换的内置函数。SQL 中支持的很多函数,Table API 和 SQL 阅读全文
posted @ 2020-09-20 12:46 花未全开*月未圆 阅读(1361) 评论(0) 推荐(0) 编辑
摘要: 时间语义,要配合窗口操作才能发挥作用。最主要的用途,当然就是开窗口、根据时间段做计算了。下面我们就来看看 Table API 和 SQL 中,怎么利用时间字段做窗口操作。 在 Table API 和 SQL 中,主要有两种窗口:Group Windows 和 Over Windows 4.1 分组窗 阅读全文
posted @ 2020-09-20 12:36 花未全开*月未圆 阅读(1694) 评论(0) 推荐(0) 编辑
摘要: Table API 和 SQL,本质上还是基于关系型表的操作方式;而关系型表、关系代数,以及SQL 本身,一般是有界的,更适合批处理的场景。这就导致在进行流处理的过程中,理解会稍微复杂一些,需要引入一些特殊概念。 3.1 流处理和关系代数(表,及 SQL)的区别 可以看到,其实关系代数(主要就是指关 阅读全文
posted @ 2020-09-20 12:25 花未全开*月未圆 阅读(418) 评论(0) 推荐(0) 编辑
摘要: 2.1 基本程序结构 Table API 和 SQL 的程序结构,与流式处理的程序结构类似;也可以近似地认为有这么几步:首先创建执行环境,然后定义 source、transform 和 sink。 具体操作流程如下: val tableEnv = ... // 创建表的执行环境 // 创建一张表,用 阅读全文
posted @ 2020-09-20 12:12 花未全开*月未圆 阅读(590) 评论(0) 推荐(0) 编辑
摘要: 第一章 整体介绍1.1 什么是 Table API 和 Flink SQLFlink 本身是批流统一的处理框架,所以 Table API 和 SQL,就是批流统一的上层处理 API。目前功能尚未完善,处于活跃的开发阶段。Table API 是一套内嵌在 Java 和 Scala 语言中的查询 API 阅读全文
posted @ 2020-09-20 11:54 花未全开*月未圆 阅读(217) 评论(0) 推荐(0) 编辑
摘要: 五 分组策略和并发度 5.1 读取文件案例思考 1)spout数据源:数据库、文件、MQ(比如:Kafka) 2)数据源是数据库:只适合读取数据库的配置文件 3)数据源是文件:只适合测试、讲课用(因为集群是分布式集群) 4)企业产生的log文件处理步骤: (1)读出内容写入MQ (2)Storm再处 阅读全文
posted @ 2020-09-20 10:59 花未全开*月未圆 阅读(328) 评论(0) 推荐(0) 编辑
摘要: 4.1 API简介 4.1.1 Component组件 1)基本接口 (1)IComponent接口 (2)ISpout接口 (3)IRichSpout接口 (4)IStateSpout接口 (5)IRichStateSpout接口 (6)IBolt接口 (7)IRichBolt接口 (8)IBas 阅读全文
posted @ 2020-09-20 10:37 花未全开*月未圆 阅读(225) 评论(0) 推荐(0) 编辑
摘要: 3.1 环境准备 3.1.1 集群规划 hadoop102 hadoop103 hadoop104 zk zk zk storm storm storm 3.1.2 jar包下载 (1)官方网址:http://storm.apache.org/ (2)安装集群步骤: http://storm.apa 阅读全文
posted @ 2020-09-20 10:31 花未全开*月未圆 阅读(237) 评论(0) 推荐(0) 编辑
摘要: 2.1 Storm编程模型 2.1.1 元组(Tuple) 元组(Tuple),是消息传递的基本单元,是一个命名的值列表,元组中的字段可以是任何类型的对象。Storm使用元组作为其数据模型,元组支持所有的基本类型、字符串和字节数组作为字段值,只要实现类型的序列化接口就可以使用该类型的对象。元组本来应 阅读全文
posted @ 2020-09-20 10:26 花未全开*月未圆 阅读(304) 评论(0) 推荐(0) 编辑
摘要: 1.1 离线计算是什么? 离线计算:批量获取数据、批量传输数据、周期性批量计算数据、数据展示 代表技术:Sqoop批量导入数据、HDFS批量存储数据、MapReduce批量计算数据、Hive批量计算数据 1.2 流式计算是什么 流式计算:数据实时产生、数据实时传输、数据实时计算、实时展示 代表技术: 阅读全文
posted @ 2020-09-20 10:24 花未全开*月未圆 阅读(479) 评论(0) 推荐(0) 编辑