摘要:
一、什么是ClickHouse? ClickHouse由俄罗斯第一大搜索引擎Yandex于2016年6月发布, 开发语言为C++,ClickHouse是一个面向联机分析处理(OLAP)的开源的面向列式存储的DBMS,简称CK, 与Hadoop、Spark这些巨无霸组件相比,ClickHouse很轻量 阅读全文
摘要:
创作之初 最近抽时间看了下Hadoop权威指南一书,对原理有了更深刻的理解,顺便整理了一些重要的知识点,工作或面试中能用得上,需要的请收藏点赞。 知识点整理 1.尽量在计算节点上存储数据,以实现数据的本地快速访问,数据本地化特性是hadoop数据处理的核心。 2.hadoop为每个分片构建一个map 阅读全文
摘要:
一、背景 每天上百亿的日志数据实时查询是个挑战,在架构设计上采用了Kafka + Flink + Clickhouse+Redash,实现海量数据的实时分析。计算层,我们开发了基于Flink计算引擎的实时数据平台,简化开发流程,数据通过配置化实现动态Schema生成,底层数据解析统一,无需重复造轮子 阅读全文
摘要:
一、业务场景 Kafka consumer 任务出现异常的时候如何保证数据的质量?在以往的经验中,为了保证数据的精准一次,使用mysql表记录下程序异时数据的partition和offset,任务重启的时候查询下mysql 表中是否有程序异常的记录,如果有就从mysql表中取出对应partition 阅读全文
摘要:
一、WaterMark作用 在使用 EventTime 处理 Stream 数据的时候会遇到数据乱序的问题,流处理从 Event(事 件)产生,流经 Source,再到 Operator,这中间需要一定的时间。虽然大部分情况下,传输到 Operator 的数据都是按照事件产生的时间顺序来的,但是也不 阅读全文
摘要:
一、需求背景 App端的埋点日志通过LogerServer收集到Kafka,再用Flink写入到HDFS,按天或天加小时分区,文件格式为text 或者Parquet,Checkpoint间隔为5分钟,Sink 并行度为10,每个小时产生600个小文件,由于数据量大,每天几十亿的数据,产生的小文件很多 阅读全文
摘要:
1. kafka table DDL 动态table,后者定义覆盖前者, 一次创建多次使用 2.clone table 完整继承、或者覆盖OPTION 3.性能测试体验提升 4.kafka table options 提升 5.source & Sink重构 (1)ChangeLog:kafka s 阅读全文
摘要:
一、Docker安装Elasticsearch 1.拉取对应版本的镜像 docker pull elasticsearch:7.6.0 2.设置配置文件elasticsearch.yaml cluster.name: "docker-cluster" node.name: node-1 node.m 阅读全文
摘要:
一、Aysnc I/O 是啥? 流计算系统中经常需要与外部系统进行交互,比如需要查询外部数据库以关联上用户的额外信息。Flink Async I/O API 允许用户在数据流中使用异步请求客户端访问外部存储。该API处理与数据流的集成,以及消息顺序性(Order)、事件时间(event time)、 阅读全文
摘要:
一、ProcessWindowFunction使用场景 前面提到的 ReduceFunction 和 AggregateFunction 都是基于中间状态实现增量计算的窗口函数,虽然已经满足绝大多数场景,但在某些情况下,统计更复杂的指标可能需要依赖于窗口中所有的数据元素,或需要操作窗口中的状态数据和 阅读全文