摘要:
1.1 Hudi是什么 Apache Hudi(Hadoop Upserts Deletes and Incrementals,简称Hudi,发音为Hoodie)由UBer开源,它以极低的延迟将数据快速摄取到HDFS或云存储(S3)中,其最主要的特点是支持记录(Record)级别的插入更新(Upse 阅读全文
摘要:
一、检查是否应安装了mysql或者mariadb,有的话卸载 1.1、 检查mariadb rpm -qa | grep mariadb 1.2、 删除mariadb yum -y remove mariadb* 1.3、 检查是否已安装MySQL,如有则卸载 rpm -qa | grep mysq 阅读全文
摘要:
在Flink中,从程序代码到真正执行需要经历如下几个过程: Program -> StreamGraph -> JobGraph -> ExecutionGraph,在StreamGraph -> JobGraph这个阶段,而Flink会对各个Operator按照一定的规则进行Chain。 首先,C 阅读全文
摘要:
首先,查看local模式下程序是如何运行的,上代码,从最简单的例子开始, 第一步:编写流处理的小例子 需求:接收来自Kafka中sensor-temperature主题下的温度传感器数据,计算各传感器每天的5秒内的平均温度 代码:TemperatureAnalysis.java package co 阅读全文
摘要:
Flink的部署模式,有Local、Cluster和Cloud模式,本案例,在Local模式下分析,Flink的DataStream流处理应用程序的运行流程 MiniCluster -> start JobManager(主节点服务,实现类是JobManagerRunnerImpl类) JobMas 阅读全文
摘要:
使用flink-1.9.0进行的测试,在不同的并行度下,Flink对事件时间的处理逻辑不同。包括1.1在并行度为1的本地模式分析和1.2在多并行度的本地模式分析两部分。通过理论结合源码进行验证,得到具有说服力的结论。 一、使用并行度为1的本地模式测试 1.1、Flink时间时间窗口代码,使用Sock 阅读全文
摘要:
由于SparkSQL不支持HBase的数据源(HBase-1.1.2),网上有很多是采用Hortonworks的SHC,而SparkSQL操作HBase自定义数据源大多数都是基于Scala实现,我就自己写了一个Java版的SparkSQL操作HBase的小案例。 1、SparkOnHBase pac 阅读全文
摘要:
在大量数据需要写入HBase时,通常有Put方式和BulkLoad两种方式。 Put不做解释。 BulkLoader方式的优势在于: 1、不会触发WAL预写日志,当表还没有数据时进行数据导入不会产生Flush和Split。 2、减少接口调用的消耗,是一种快速写入的优化方式。 但如果使用Spark操作 阅读全文
摘要:
先阐述一下JSR(Java Specification Requests)规范,即Java语言的规范提案。是向JCP(Java Community Process)提出新增一个标准化技术规范的正式请求。任何人都可以提交JSR,可以向Java平台增添新的API和服务。JSR已成为Java界的一个重要标 阅读全文
摘要:
应用场景:实时仪表盘(即大屏),每个集团下有多个mall,每个mall下包含多家shop,需实时计算集团下各mall及其shop的实时销售分析(区域、业态、店铺TOP、总销售额等指标)并提供可视化展现,之前时候一直在Strom实现,现在改为Spark2.3.2实现。 1、数据源:首先数据源来自于MQ 阅读全文