03 2023 档案

摘要:常用spark优化参数 强制使用spark engine set tqs.query.engine.type = sparkCli; set spark.yarn.priority = 4; 双写HDFS开启: set spark.shuffle.hdfs.enable=true; set spar 阅读全文
posted @ 2023-03-30 12:37 DB乐之者 阅读(266) 评论(0) 推荐(0) 编辑
摘要:背景我们知道clickhouse一般都是处理单表的数据,经常需要实现同环比等分析场景,这里提供两种方式:首先计算公式: 同比、环比分析是一对常见的分析指标,其增长率公式如下: 同比增长率 =(本期数 - 同期数) / 同期数 环比增长率 =(本期数 - 上期数) /上期数 1. 向大家介绍如何利用 阅读全文
posted @ 2023-03-28 19:58 DB乐之者 阅读(744) 评论(0) 推荐(0) 编辑
摘要:olap Druid :是一个实时处理时序数据的OLAP数据库,因为它的索引按照时间分片,查询的时候也是按照时间线去路由索引。 Kylin核心是Cube,Cube是一种预计算技术,基本思路是预先对数据作多维索引,查询时只扫描索引而不访问原始数据从而提速。 Presto:它没有使用MapReduce, 阅读全文
posted @ 2023-03-24 13:58 DB乐之者 阅读(818) 评论(0) 推荐(0) 编辑
摘要:安装 Superset 和ClickHouse Superset 安装可以参考我之前的随笔 ClickHouse 安装 ClickHouse 的驱动包 pip install clickhouse-sqlalchemy 配置 ClickHouse 连接 选择 ClickHouse 这里我拿网上的大数 阅读全文
posted @ 2023-03-21 18:16 DB乐之者 阅读(234) 评论(0) 推荐(0) 编辑
摘要:解决的问题 在WIN10环境下,安装并正常运行Superset 建议使用Python虚拟环境,减少库依赖冲突 不需要安装VC啦! 注意 本教程安装的版本是1.5 Superset在2022年7月发布了2.0的大版本更新 如python的版本要求变为3.9+,同时增加了更多的库依赖等 以下教程未为对2 阅读全文
posted @ 2023-03-18 11:54 DB乐之者 阅读(769) 评论(0) 推荐(0) 编辑
摘要:一、数据主备: 有三张表,学生表、成绩表和课程表,我们可以通过连表查询出学生姓名、课程及对应的成绩: 所需表sql -- -- Table structure for student -- DROP TABLE IF EXISTS `student`; CREATE TABLE `student` 阅读全文
posted @ 2023-03-13 12:14 DB乐之者 阅读(1042) 评论(0) 推荐(0) 编辑
摘要:最近工作使用了一段时间的的数据库客户端 DBeaver,发现客户端显示时间不正确。时间保存之后发现日期经常自动-1。 这期间做了大量测试和分析,一开始以为时csv格式问题,反复导入最终查到是因为时区问题导致的日期-1,解决方式如下。 解决方法1: 或者在链接字符串后面增加这个参数亦可。 解决方法2: 阅读全文
posted @ 2023-03-06 09:18 DB乐之者 阅读(1355) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示