摘要:
1. 案例sql select A,B from testdata2 where A>2 对应的执行计划: == Analyzed Logical Plan == Project [A#23, B#24] +- Filter (A#23 > 2) +- SubqueryAlias testdata2 阅读全文
摘要:
报错如下: The root scratch dir: /tmp/hive on HDFS should be writable. Current permissions are: Caused by: java.lang.RuntimeException: The root scratch dir 阅读全文
摘要:
1. IDEA安装 安装破解的具体步骤见连接:https://baijiahao.baidu.com/s?id=1727424621934000354&wfr=spider&for=pc 2. 安装JDK 已安装 3. 安装maven 3.1 官网下载maven 下载地址:http://maven. 阅读全文
摘要:
1. 什么是数据仓库1.1 什么是数据库 - 数据库是按照数据结构来组织、存储和管理数据的建立在计算机存储设备上的仓库 - 数据库是长期存储在计算机内、有组织的、可共享的数据集合。数据库中的数据指的是以一定的数据模型组织、描述和存储在一起、具有尽可能小的冗余度、较高的数据独立性和易扩展性的特点并可在 阅读全文
摘要:
一. 基本概念(https://blog.csdn.net/xianzhen376/article/details/89810958) 双流Join是Flink面试的高频问题。一般情况下说明以下几点就可以hold了: 1.join大体分类有两种:window join和interval join。w 阅读全文
摘要:
大致思路: canal去mysql拉取数据,放在canal所在的节点上,并且自身对外提供一个tcp服务,我们只要写一个连接该服务的客户端,去拉取数据并且指定往kafka写数据的格式就能达到以protobuf的格式往kafka中写数据的要求。 1. 配置canal(/bigdata/canal/con 阅读全文
摘要:
1.Flink中exactly once实现原理分析 生产者从kafka拉取数据以及消费者往kafka写数据都需要保证exactly once。目前flink中支持exactly once的source不多,有kafka source;能实现exactly once的sink也不多,如kafka s 阅读全文
摘要:
1. 获取窗口迟到的数据 主要流程就是给迟到的数据打上标签,然后使用相应窗口流的实例调用sideOutputLateData(lateDataTag),从而获得窗口迟到的数据,进而进行相关的计算,具体代码见下 WindowLateDataDemo package cn._51doit.flink.d 阅读全文