摘要:
这篇文章目的:介绍用户分析常用概念,记录用户分析指标,分析用户常用方法。不知道如何设计指标和数据分析模块,可以参考。 行为分析名词 维度 维度是描述一个事务身上所具备的特征和属性。比如一个人属于什么性别,在哪个城市生活,喜欢什么颜色, 这些都是这个人身上所具备的属性特征。 在网站分析领域,维度往往用 阅读全文
摘要:
ClickHouse优化 执行计划 AST(语法树)、SYNTAX(优化后的SQL语句)、PIPELINE(查看PIPELINE计划,可看线程数) 建表优化 数据类型优化:1.限定好数据类型 2.使用空值会对性能产生负面影响 分区索引优化:1.分区按照天分区(一亿分区) 2.order by(就是索 阅读全文
摘要:
ClickHouse概念 ClickHouse概述 1.列式是数据库 2.在线分析处理(OLAP) 3.底层是C++编写 多样化引擎、数据分区/线程级并行(耗CPU)、顺序读写。适用于固定宽表查询 单表查询擅长,多表关联查询不擅长。 ClickHouse数据类型 Int:Int8、Int16、Int 阅读全文
摘要:
Kylin Kylin基础概念 即席查询工具,多为分析工具,OLAP(在线分析处理) Cube:多个维度组合进行随机数据聚合的其中一个组合。 REST Server:是一套面向应用程序的开发接口,提供了包括查询、触发cube、获取元数据等 查询引擎:获取并解析用户的查询,将结果返回,spark作为查 阅读全文
摘要:
DolphinScheduler 功能介绍 文档:https://dolphinscheduler.apache.org/en-us/docs/latest/user_doc/guide/metrics/metrics.html 租户:worker.properties worker.tentant 阅读全文
摘要:
Airflow 文档地址:https://airflow.apache.org/docs/apache-airflow/stable/index.html 动态任务 def taskList(task_conf,batch_size): task = BashOperator( task_id='' 阅读全文
摘要:
flink-cdc flink-cdc 概述 flink-cdc 文档地址:https://ververica.github.io/flink-cdc-connectors/master/content/about.html# 依赖 <dependency> <groupId>io.netty</g 阅读全文
摘要:
DeBezium DeBezium简介 DeBezium:功能远远强大与canal、maxwell。构建与kafka之上。 优点:1.处理大容量的数据 2.监控多种数据库:mysql、MongoDB、PostgreSQL、 SQL Server。canal、maxwell限于(mysql) 方式一: 阅读全文
摘要:
Maxwell Maxwell介绍 Maxwell:实时读取mysql的Binlog,生成json格式的消息,发送给kafka、redis等 下载地址:https://github.com/zendesk/maxwell/releases/download/v1.29.2/maxwell-1.29. 阅读全文
摘要:
Canal Canal介绍 功能:通过读取Mysql的Binlog,实时采集数据库数据的变化写到消息队列。 原理:将自己伪装成Slave,假装从Master复制数据 使用场景:1.异地数据库之间的同步 2.更新缓存,读取主库更新,在缓存服务器中更新 3.实时更新 文档地址:https://githu 阅读全文