摘要: 1.1 Hudi是什么 Apache Hudi(Hadoop Upserts Deletes and Incrementals,简称Hudi,发音为Hoodie)由UBer开源,它以极低的延迟将数据快速摄取到HDFS或云存储(S3)中,其最主要的特点是支持记录(Record)级别的插入更新(Upse 阅读全文
posted @ 2021-01-29 11:26 孟尧 阅读(2535) 评论(0) 推荐(0) 编辑
摘要: 一、检查是否应安装了mysql或者mariadb,有的话卸载 1.1、 检查mariadb rpm -qa | grep mariadb 1.2、 删除mariadb yum -y remove mariadb* 1.3、 检查是否已安装MySQL,如有则卸载 rpm -qa | grep mysq 阅读全文
posted @ 2021-01-22 23:02 孟尧 阅读(329) 评论(0) 推荐(0) 编辑
摘要: 在Flink中,从程序代码到真正执行需要经历如下几个过程: Program -> StreamGraph -> JobGraph -> ExecutionGraph,在StreamGraph -> JobGraph这个阶段,而Flink会对各个Operator按照一定的规则进行Chain。 首先,C 阅读全文
posted @ 2020-11-26 23:32 孟尧 阅读(562) 评论(0) 推荐(0) 编辑
摘要: 首先,查看local模式下程序是如何运行的,上代码,从最简单的例子开始, 第一步:编写流处理的小例子 需求:接收来自Kafka中sensor-temperature主题下的温度传感器数据,计算各传感器每天的5秒内的平均温度 代码:TemperatureAnalysis.java package co 阅读全文
posted @ 2020-11-18 18:48 孟尧 阅读(448) 评论(0) 推荐(0) 编辑
摘要: Flink的部署模式,有Local、Cluster和Cloud模式,本案例,在Local模式下分析,Flink的DataStream流处理应用程序的运行流程 MiniCluster -> start JobManager(主节点服务,实现类是JobManagerRunnerImpl类) JobMas 阅读全文
posted @ 2020-07-13 23:21 孟尧 阅读(941) 评论(0) 推荐(0) 编辑
摘要: 使用flink-1.9.0进行的测试,在不同的并行度下,Flink对事件时间的处理逻辑不同。包括1.1在并行度为1的本地模式分析和1.2在多并行度的本地模式分析两部分。通过理论结合源码进行验证,得到具有说服力的结论。 一、使用并行度为1的本地模式测试 1.1、Flink时间时间窗口代码,使用Sock 阅读全文
posted @ 2019-10-16 17:38 孟尧 阅读(3470) 评论(2) 推荐(0) 编辑
摘要: 由于SparkSQL不支持HBase的数据源(HBase-1.1.2),网上有很多是采用Hortonworks的SHC,而SparkSQL操作HBase自定义数据源大多数都是基于Scala实现,我就自己写了一个Java版的SparkSQL操作HBase的小案例。 1、SparkOnHBase pac 阅读全文
posted @ 2019-06-18 19:09 孟尧 阅读(1661) 评论(0) 推荐(0) 编辑
摘要: 在大量数据需要写入HBase时,通常有Put方式和BulkLoad两种方式。 Put不做解释。 BulkLoader方式的优势在于: 1、不会触发WAL预写日志,当表还没有数据时进行数据导入不会产生Flush和Split。 2、减少接口调用的消耗,是一种快速写入的优化方式。 但如果使用Spark操作 阅读全文
posted @ 2019-06-18 19:00 孟尧 阅读(1537) 评论(0) 推荐(0) 编辑
摘要: 先阐述一下JSR(Java Specification Requests)规范,即Java语言的规范提案。是向JCP(Java Community Process)提出新增一个标准化技术规范的正式请求。任何人都可以提交JSR,可以向Java平台增添新的API和服务。JSR已成为Java界的一个重要标 阅读全文
posted @ 2019-01-02 23:52 孟尧 阅读(399) 评论(0) 推荐(0) 编辑
摘要: 应用场景:实时仪表盘(即大屏),每个集团下有多个mall,每个mall下包含多家shop,需实时计算集团下各mall及其shop的实时销售分析(区域、业态、店铺TOP、总销售额等指标)并提供可视化展现,之前时候一直在Strom实现,现在改为Spark2.3.2实现。 1、数据源:首先数据源来自于MQ 阅读全文
posted @ 2018-12-21 14:20 孟尧 阅读(2788) 评论(0) 推荐(1) 编辑