03 2023 档案
摘要:常用spark优化参数 强制使用spark engine set tqs.query.engine.type = sparkCli; set spark.yarn.priority = 4; 双写HDFS开启: set spark.shuffle.hdfs.enable=true; set spar
阅读全文
摘要:背景我们知道clickhouse一般都是处理单表的数据,经常需要实现同环比等分析场景,这里提供两种方式:首先计算公式: 同比、环比分析是一对常见的分析指标,其增长率公式如下: 同比增长率 =(本期数 - 同期数) / 同期数 环比增长率 =(本期数 - 上期数) /上期数 1. 向大家介绍如何利用
阅读全文
摘要:olap Druid :是一个实时处理时序数据的OLAP数据库,因为它的索引按照时间分片,查询的时候也是按照时间线去路由索引。 Kylin核心是Cube,Cube是一种预计算技术,基本思路是预先对数据作多维索引,查询时只扫描索引而不访问原始数据从而提速。 Presto:它没有使用MapReduce,
阅读全文
摘要:安装 Superset 和ClickHouse Superset 安装可以参考我之前的随笔 ClickHouse 安装 ClickHouse 的驱动包 pip install clickhouse-sqlalchemy 配置 ClickHouse 连接 选择 ClickHouse 这里我拿网上的大数
阅读全文
摘要:解决的问题 在WIN10环境下,安装并正常运行Superset 建议使用Python虚拟环境,减少库依赖冲突 不需要安装VC啦! 注意 本教程安装的版本是1.5 Superset在2022年7月发布了2.0的大版本更新 如python的版本要求变为3.9+,同时增加了更多的库依赖等 以下教程未为对2
阅读全文
摘要:一、数据主备: 有三张表,学生表、成绩表和课程表,我们可以通过连表查询出学生姓名、课程及对应的成绩: 所需表sql -- -- Table structure for student -- DROP TABLE IF EXISTS `student`; CREATE TABLE `student`
阅读全文
摘要:最近工作使用了一段时间的的数据库客户端 DBeaver,发现客户端显示时间不正确。时间保存之后发现日期经常自动-1。 这期间做了大量测试和分析,一开始以为时csv格式问题,反复导入最终查到是因为时区问题导致的日期-1,解决方式如下。 解决方法1: 或者在链接字符串后面增加这个参数亦可。 解决方法2:
阅读全文