10 2022 档案
摘要:ClickHouse优化 执行计划 AST(语法树)、SYNTAX(优化后的SQL语句)、PIPELINE(查看PIPELINE计划,可看线程数) 建表优化 数据类型优化:1.限定好数据类型 2.使用空值会对性能产生负面影响 分区索引优化:1.分区按照天分区(一亿分区) 2.order by(就是索
阅读全文
摘要:ClickHouse概念 ClickHouse概述 1.列式是数据库 2.在线分析处理(OLAP) 3.底层是C++编写 多样化引擎、数据分区/线程级并行(耗CPU)、顺序读写。适用于固定宽表查询 单表查询擅长,多表关联查询不擅长。 ClickHouse数据类型 Int:Int8、Int16、Int
阅读全文
摘要:Kylin Kylin基础概念 即席查询工具,多为分析工具,OLAP(在线分析处理) Cube:多个维度组合进行随机数据聚合的其中一个组合。 REST Server:是一套面向应用程序的开发接口,提供了包括查询、触发cube、获取元数据等 查询引擎:获取并解析用户的查询,将结果返回,spark作为查
阅读全文
摘要:DolphinScheduler 功能介绍 文档:https://dolphinscheduler.apache.org/en-us/docs/latest/user_doc/guide/metrics/metrics.html 租户:worker.properties worker.tentant
阅读全文
摘要:Airflow 文档地址:https://airflow.apache.org/docs/apache-airflow/stable/index.html 动态任务 def taskList(task_conf,batch_size): task = BashOperator( task_id=''
阅读全文
摘要:flink-cdc flink-cdc 概述 flink-cdc 文档地址:https://ververica.github.io/flink-cdc-connectors/master/content/about.html# 依赖 <dependency> <groupId>io.netty</g
阅读全文
摘要:DeBezium DeBezium简介 DeBezium:功能远远强大与canal、maxwell。构建与kafka之上。 优点:1.处理大容量的数据 2.监控多种数据库:mysql、MongoDB、PostgreSQL、 SQL Server。canal、maxwell限于(mysql) 方式一:
阅读全文
摘要:Maxwell Maxwell介绍 Maxwell:实时读取mysql的Binlog,生成json格式的消息,发送给kafka、redis等 下载地址:https://github.com/zendesk/maxwell/releases/download/v1.29.2/maxwell-1.29.
阅读全文
摘要:Canal Canal介绍 功能:通过读取Mysql的Binlog,实时采集数据库数据的变化写到消息队列。 原理:将自己伪装成Slave,假装从Master复制数据 使用场景:1.异地数据库之间的同步 2.更新缓存,读取主库更新,在缓存服务器中更新 3.实时更新 文档地址:https://githu
阅读全文
摘要:datax概述 datax定位:离线同步工具 datax优势: 1.单进程多线程,单机压力大 2.理论上可以打满带宽 链接 文档链接:https://github.com/alibaba/DataX 下载地址:https://datax-opensource.oss-cn-hangzhou.aliy
阅读全文
摘要:kafka局部调优 kafka常用命令 cd /opt/kafka/kafka/bin/ ##启动ZK ./zookeeper-server-start.sh -daemon /opt/kafka/kafka/config/zookeeper.properties ##启动kafka ./kafka
阅读全文
摘要:kafka理论 消息队列作用、模式 作用:1.消峰 2.解耦 3.异步通信 模式:1.点对点模式(删除对应的消息,只有一个消费者) 2.发布订阅模式(不删除数据 消费者相互独立 可以多个消费者) kafka中概念 Producer(生产者) 分区(一个topic分为多个分区,) Consumer(消
阅读全文
摘要:生产者 生产者异步发送 import java.util import java.util.{Properties, UUID} import org.apache.kafka.clients.producer.{Callback, KafkaProducer, Partitioner, Produ
阅读全文
摘要:内存 1.taskmanager.memory.jvm-overhead.fraction 0.1 JVM开销线程堆栈、IO、编译、缓存等 进程总大小*当前 taskmanager.memory.jvm-overhead.min 192m taskmanager.memory.jvm-overhea
阅读全文
摘要:基础代码 环境信息 sql-client.sh 启动 SQL 客户端 CREATE TABLE employee_information (emp_id INT,name VARCHAR,dept_id INT) WITH ('connector' = 'filesystem','path' = '
阅读全文
摘要:基础代码 环境信息 //table api flink三层API(processfunction api/datastream api/sql table api) import org.apache.flink.streaming.api.scala.StreamExecutionEnvironm
阅读全文
摘要:Flink DataStream Sink(四) 文档:https://bahir.apache.org/docs/flink/current/flink-streaming-redis/ https://nightlies.apache.org/flink/flink-docs-release-1
阅读全文
摘要:Flink DataStream Transform(三) 环境变量 import org.apache.flink.api.scala.ExecutionEnvironment val env = ExecutionEnvironment.getExecutionEnvironment;//批处理
阅读全文