追风dylan - 博客园

[置顶] ClickHouse深度解析

摘要：一、什么是ClickHouse？ ClickHouse由俄罗斯第一大搜索引擎Yandex于2016年6月发布, 开发语言为C++,ClickHouse是一个面向联机分析处理(OLAP)的开源的面向列式存储的DBMS，简称CK, 与Hadoop、Spark这些巨无霸组件相比，ClickHouse很轻量阅读全文

posted @ 2020-06-17 15:23 追风dylan 阅读(5300) 评论(0) 推荐(4)

2020年6月23日

Hadoop&HDFS知识点整理

摘要：创作之初最近抽时间看了下Hadoop权威指南一书，对原理有了更深刻的理解，顺便整理了一些重要的知识点，工作或面试中能用得上，需要的请收藏点赞。知识点整理 1.尽量在计算节点上存储数据，以实现数据的本地快速访问，数据本地化特性是hadoop数据处理的核心。 2.hadoop为每个分片构建一个map 阅读全文

posted @ 2020-06-23 17:23 追风dylan 阅读(276) 评论(0) 推荐(0)

2020年6月19日

实时日志数据写入Clickhouse

摘要：一、背景每天上百亿的日志数据实时查询是个挑战，在架构设计上采用了Kafka + Flink + Clickhouse+Redash，实现海量数据的实时分析。计算层，我们开发了基于Flink计算引擎的实时数据平台，简化开发流程，数据通过配置化实现动态Schema生成，底层数据解析统一，无需重复造轮子阅读全文

posted @ 2020-06-19 18:16 追风dylan 阅读(9313) 评论(3) 推荐(1)

Kafka consumer Job异常重置offset

摘要：一、业务场景 Kafka consumer 任务出现异常的时候如何保证数据的质量？在以往的经验中，为了保证数据的精准一次，使用mysql表记录下程序异时数据的partition和offset，任务重启的时候查询下mysql 表中是否有程序异常的记录，如果有就从mysql表中取出对应partition 阅读全文

posted @ 2020-06-19 16:02 追风dylan 阅读(686) 评论(0) 推荐(0)

2020年6月18日

Flink WaterMark原理与实现

摘要：一、WaterMark作用在使用 EventTime 处理 Stream 数据的时候会遇到数据乱序的问题，流处理从 Event(事件)产生，流经 Source，再到 Operator，这中间需要一定的时间。虽然大部分情况下，传输到 Operator 的数据都是按照事件产生的时间顺序来的，但是也不阅读全文

posted @ 2020-06-18 18:35 追风dylan 阅读(4398) 评论(0) 推荐(0)

2020年6月17日

Spark定期合并Hive表小文件

摘要：一、需求背景 App端的埋点日志通过LogerServer收集到Kafka，再用Flink写入到HDFS,按天或天加小时分区，文件格式为text 或者Parquet,Checkpoint间隔为5分钟，Sink 并行度为10，每个小时产生600个小文件，由于数据量大，每天几十亿的数据，产生的小文件很多阅读全文

posted @ 2020-06-17 22:12 追风dylan 阅读(2523) 评论(0) 推荐(0)

2020年6月16日

Flink 1.11 Table & SQL深度解读

摘要： 1. kafka table DDL 动态table,后者定义覆盖前者, 一次创建多次使用 2.clone table 完整继承、或者覆盖OPTION 3.性能测试体验提升 4.kafka table options 提升 5.source & Sink重构（1）ChangeLog：kafka s 阅读全文

posted @ 2020-06-16 17:46 追风dylan 阅读(1387) 评论(0) 推荐(1)

2020年6月12日

Docker 安装Elasticsearch、Kibana实战——避免踩坑

摘要：一、Docker安装Elasticsearch 1.拉取对应版本的镜像 docker pull elasticsearch:7.6.0 2.设置配置文件elasticsearch.yaml cluster.name: "docker-cluster" node.name: node-1 node.m 阅读全文

posted @ 2020-06-12 18:34 追风dylan 阅读(2809) 评论(0) 推荐(2)

Flink 异步IO实践

摘要：一、Aysnc I/O 是啥？流计算系统中经常需要与外部系统进行交互，比如需要查询外部数据库以关联上用户的额外信息。Flink Async I/O API 允许用户在数据流中使用异步请求客户端访问外部存储。该API处理与数据流的集成，以及消息顺序性(Order)、事件时间(event time)、阅读全文

posted @ 2020-06-12 15:02 追风dylan 阅读(494) 评论(0) 推荐(1)

Flink 窗口聚合函数之ProcessWindowFunction实践

摘要：一、ProcessWindowFunction使用场景前面提到的 ReduceFunction 和 AggregateFunction 都是基于中间状态实现增量计算的窗口函数，虽然已经满足绝大多数场景，但在某些情况下，统计更复杂的指标可能需要依赖于窗口中所有的数据元素，或需要操作窗口中的状态数据和阅读全文

posted @ 2020-06-12 14:02 追风dylan 阅读(1244) 评论(0) 推荐(1)

公告