孟尧 - 博客园

2021年1月29日

摘要： 1.1 Hudi是什么 Apache Hudi（Hadoop Upserts Deletes and Incrementals，简称Hudi，发音为Hoodie）由UBer开源，它以极低的延迟将数据快速摄取到HDFS或云存储（S3）中，其最主要的特点是支持记录（Record）级别的插入更新（Upse 阅读全文

posted @ 2021-01-29 11:26 孟尧阅读(2664) 评论(0) 推荐(0) 编辑

2021年1月22日

在CentOS-7.5中安装MySQL-8.0.22

摘要：一、检查是否应安装了mysql或者mariadb，有的话卸载 1.1、检查mariadb rpm -qa | grep mariadb 1.2、删除mariadb yum -y remove mariadb* 1.3、检查是否已安装MySQL，如有则卸载 rpm -qa | grep mysq 阅读全文

posted @ 2021-01-22 23:02 孟尧阅读(334) 评论(0) 推荐(0) 编辑

2020年11月26日

Flink中算子进行Chain的规则分析（最新代码，源码版本大于1.11.2）

摘要：在Flink中，从程序代码到真正执行需要经历如下几个过程： Program -> StreamGraph -> JobGraph -> ExecutionGraph，在StreamGraph -> JobGraph这个阶段，而Flink会对各个Operator按照一定的规则进行Chain。首先，C 阅读全文

posted @ 2020-11-26 23:32 孟尧阅读(569) 评论(0) 推荐(0) 编辑

2020年11月18日

Flink流处理程序在Local模式下的运行流程源码分析

摘要：首先，查看local模式下程序是如何运行的，上代码，从最简单的例子开始，第一步：编写流处理的小例子需求：接收来自Kafka中sensor-temperature主题下的温度传感器数据，计算各传感器每天的5秒内的平均温度代码：TemperatureAnalysis.java package co 阅读全文

posted @ 2020-11-18 18:48 孟尧阅读(454) 评论(0) 推荐(0) 编辑

2020年7月13日

Flink-DataStream流处理应用(Local模式下)运行流程-源码分析

摘要： Flink的部署模式，有Local、Cluster和Cloud模式，本案例，在Local模式下分析，Flink的DataStream流处理应用程序的运行流程 MiniCluster -> start JobManager（主节点服务，实现类是JobManagerRunnerImpl类） JobMas 阅读全文

posted @ 2020-07-13 23:21 孟尧阅读(962) 评论(0) 推荐(0) 编辑

2019年10月16日

Flink Streaming基于滚动窗口的事件时间分析

摘要：使用flink-1.9.0进行的测试，在不同的并行度下，Flink对事件时间的处理逻辑不同。包括1.1在并行度为1的本地模式分析和1.2在多并行度的本地模式分析两部分。通过理论结合源码进行验证，得到具有说服力的结论。一、使用并行度为1的本地模式测试 1.1、Flink时间时间窗口代码，使用Sock 阅读全文

posted @ 2019-10-16 17:38 孟尧阅读(3483) 评论(2) 推荐(0) 编辑

2019年6月18日

Spark-2.4.6 Java SparkSQL的自定义HBase数据源

摘要：由于SparkSQL不支持HBase的数据源（HBase-1.1.2），网上有很多是采用Hortonworks的SHC，而SparkSQL操作HBase自定义数据源大多数都是基于Scala实现，我就自己写了一个Java版的SparkSQL操作HBase的小案例。 1、SparkOnHBase pac 阅读全文

posted @ 2019-06-18 19:09 孟尧阅读(1669) 评论(0) 推荐(0) 编辑

Spark-2.4.6 HBase BulkLoad

摘要：在大量数据需要写入HBase时，通常有Put方式和BulkLoad两种方式。 Put不做解释。 BulkLoader方式的优势在于： 1、不会触发WAL预写日志，当表还没有数据时进行数据导入不会产生Flush和Split。 2、减少接口调用的消耗，是一种快速写入的优化方式。但如果使用Spark操作阅读全文

posted @ 2019-06-18 19:00 孟尧阅读(1551) 评论(0) 推荐(0) 编辑

2019年1月2日

Java8的Lambda表达式简介

摘要：先阐述一下JSR（Java Specification Requests）规范，即Java语言的规范提案。是向JCP(Java Community Process)提出新增一个标准化技术规范的正式请求。任何人都可以提交JSR，可以向Java平台增添新的API和服务。JSR已成为Java界的一个重要标阅读全文

posted @ 2019-01-02 23:52 孟尧阅读(400) 评论(0) 推荐(0) 编辑

2018年12月21日

Spark-2.3.2【SparkStreaming+SparkSQL-实时仪表盘应用】

摘要：应用场景：实时仪表盘（即大屏），每个集团下有多个mall，每个mall下包含多家shop，需实时计算集团下各mall及其shop的实时销售分析（区域、业态、店铺TOP、总销售额等指标）并提供可视化展现，之前时候一直在Strom实现，现在改为Spark2.3.2实现。 1、数据源：首先数据源来自于MQ 阅读全文

posted @ 2018-12-21 14:20 孟尧阅读(2809) 评论(0) 推荐(1) 编辑

孟尧

前途宽广，贵在坚持

公告