开源大数据 - 随笔分类 - DB乐之者

hivesql 累加计算

摘要：数据分析笔试中累加问题是非常常见的考题，今天我们用一个函数来搞定它 sum over(partition by 分组列 order by 排序列 rows between 开始位置 preceding and 结束位置 following) 其中'开始位置'和'结束位置'可配置参数：数据、curre 阅读全文

posted @ 2023-05-23 10:01 DB乐之者阅读(504) 评论(0) 推荐(0)

hivesql 实现collect_list内排序

摘要：假设我有一个看起来像这样的蜂巢表： ID event order_num A red 2 A blue 1 A yellow 3 B yellow 2 B green 1 ... 我正在尝试使用 collect_list 为每个 ID 生成事件列表。所以类似于以下内容： SELECT ID, col 阅读全文

posted @ 2023-04-14 16:41 DB乐之者阅读(1500) 评论(0) 推荐(0)

常用spark优化参数

摘要：常用spark优化参数强制使用spark engine set tqs.query.engine.type = sparkCli; set spark.yarn.priority = 4; 双写HDFS开启： set spark.shuffle.hdfs.enable=true; set spar 阅读全文

posted @ 2023-03-30 12:37 DB乐之者阅读(345) 评论(0) 推荐(0)

AB实验基本流程

摘要：知识点基本流程实验分层问题最小样本量计算均值类比值类 SRM检验指标检验比值类均值类关于统计检验显著性问题参考资料基本流程确定基本流程和假设，确认做这个功能是为了提升/降低什么指标。开发相关功能设计分层实验，进行流量分配。通过PowerAnalysis计算最小样本量。实验阅读全文

posted @ 2023-02-16 17:00 DB乐之者阅读(658) 评论(0) 推荐(0)

hivesql和prestosql对比

摘要：背景最近很多时候需要将hivesql转化为prestosql ,这里面有很多不能直接复用需要调整func甚至改用其他逻辑。为了后续方便查询，后面将总结以下经常用到的sql记录下来方便后续使用。爆炸函数实现 hive：SELECT student,score FROM tests LATERAL 阅读全文

posted @ 2023-01-29 19:10 DB乐之者阅读(444) 评论(0) 推荐(0)

Doris rollup介绍

摘要：Rollup Rollup的根本作用就是提升某些查询的查询效率，也称为物化索引。 Rollup属于Base表，Base表可以增删Rollup，Rollup完全和Base表同步更新，Base表数据发生变化，Rollup也会跟随Base表变化。 Rollup完全独立存储，因此要考虑存储问题。 Rollu 阅读全文

posted @ 2022-09-29 11:15 DB乐之者阅读(688) 评论(0) 推荐(0)

HBase常用的Filter总结

摘要：简介：根据技术调研的过程可以明显的体会到hbase的存储方式和数据库的存储有着明显的区别，查询的方式也有着很大不同，HBase主要是通过这种filter来对数据进行筛选。同时对于数据的体量较大（10亿级别以上的数据数据量），检索和修改的场景较多时是比较适合使用hbase。 HBase过滤器可以根据阅读全文

posted @ 2022-07-28 10:38 DB乐之者阅读(1974) 评论(0) 推荐(0)

如何快速同步hdfs数据到ck

摘要：ClickHouse是面向OLAP的分布式列式DBMS。我们部门目前已经把所有数据分析相关的日志数据存储至ClickHouse这个优秀的数据仓库之中，当前日数据量达到了300亿。之前介绍的有关数据处理入库的经验都是基于实时数据流，数据存储在Kafka中，我们使用Java或者Golang将数据从Ka 阅读全文

posted @ 2022-03-18 11:19 DB乐之者阅读(835) 评论(0) 推荐(0)

hbase 批量查询数据

摘要：摘要：下面首先简单介绍了搜索引擎的性能，然后详细说明了HBase与MySQL的性能对比，这里的数据都是经过实际的测试获得的。最后，给出了采用多线程批量从HBase中取数据的方案，此方案经过测试要比通过自定义Filter的方式性能高出很多。关键词：　HBase, 高性能, 获取数据, 性能对比, 阅读全文

posted @ 2022-02-26 14:31 DB乐之者阅读(2095) 评论(0) 推荐(0)

clickhouse 批量删除分区

摘要：导入数据后发现大量分区字段插入错误，需要批量删除分区，发现不能批量操作，只能手写一个脚本分布执行。 shell 脚本如下： ports="8888" user='' pwd='' host='' dbtable='' drop_sql=(`curl -u $user:$pwd 'http://hos 阅读全文

posted @ 2022-02-22 21:24 DB乐之者阅读(2917) 评论(0) 推荐(0)

ck中如何查询同比环比

摘要：同比、环比分析是一对常见的分析指标，其增长率公式如下：同比增长率 =（本期数 - 同期数) / 同期数环比增长率 =（本期数 - 上期数) /上期数在一些提供了开窗函数的数据库中(如Oracle、Hive)，可以利用lag()、lead()函数配合over()，非常方便的实现同比和环比的查询。阅读全文

posted @ 2022-02-17 13:28 DB乐之者阅读(527) 评论(0) 推荐(0)

es boolquery 的几种用法

摘要：Bool query 包含那些？ Bool query 对应lucene 的BooleanQuery，一般由一个或者多个查询子句组成，如下表格所示：用法描述 must 查询一定包含匹配查询内容，并且提供得分 filter 查询一定包含匹配查询内容，但是不提供得分，会对查询结果进行缓存 should 阅读全文

posted @ 2022-02-17 13:27 DB乐之者阅读(1498) 评论(0) 推荐(0)

roaringBitMap简介

摘要：如何优雅高效的在海量数据存储与查找对于这个问题我们首先可能会想到直接去存储这40亿个数据，当然这确实是一种方法。但是我们是否考虑过这样做的后果呢？如果你的解决方案就是上面的那种方法的话，那你可能真的没有考虑过后果。所以你有必要继续往下读。我们先不管后果是什么，现在我来带大家看一组数据，假设这40 阅读全文

posted @ 2022-02-10 12:34 DB乐之者阅读(2463) 评论(0) 推荐(0)

redis 批量操作

摘要：一、背景需求： redis通过tcp来对外提供服务，client通过socket连接发起请求，每个请求在命令发出后会阻塞等待redis服务器进行处理，处理完毕后将结果返回给client。其实和一个http的服务器类似，一问一答，请求一次给一次响应。而这个过程在排除掉redis服务本身做复杂操作时阅读全文

posted @ 2022-01-24 20:09 DB乐之者阅读(1053) 评论(0) 推荐(0)

shell 脚本执行带参数的hivesql

摘要：目录 1、在 shell 脚本中定义变量，在 hive -e 中使用 2、通过 --hiveconf 定义变量 3、通过 --hivevar 定义变量 4、通过 -define 定义变量操作的表： hive> select * from hbase_table_1; OK 1 zhangsan 2 阅读全文

posted @ 2022-01-24 17:47 DB乐之者阅读(1277) 评论(0) 推荐(0)

roaringbitmap 介绍

摘要：如何优雅高效的在海量数据存储与查找对于这个问题我们首先可能会想到直接去存储这40亿个数据，当然这确实是一种方法。但是我们是否考虑过这样做的后果呢？如果你的解决方案就是上面的那种方法的话，那你可能真的没有考虑过后果。所以你有必要继续往下读。我们先不管后果是什么，现在我来带大家看一组数据，假设这40 阅读全文

posted @ 2022-01-17 18:28 DB乐之者

在clickhouse中更新和删除

摘要：ck 目前支持了更新和删除，但是与传统sql语法略有不同，我也记录下来，防止后面忘记。测试数据 :) select count(*) from system.columns where table='test_update'; ┌─count()─┐ │ 332 │ └─────────┘ :) 阅读全文

posted @ 2021-12-29 15:42 DB乐之者阅读(1666) 评论(0) 推荐(0)

presto timestmp使用

摘要：日期和时间运算符时区转化 SELECT timestamp '2012-10-31 01:00 UTC'; 2012-10-31 01:00:00.000 UTC SELECT timestamp '2012-10-31 01:00 UTC' AT TIME ZONE 'America/Los_A 阅读全文

posted @ 2021-10-12 17:43 DB乐之者阅读(239) 评论(0) 推荐(0)

Hive sql 解析Json数组

摘要：我们都知道，Hive 内部提供了大量的内置函数用于处理各种类型的需求，参见官方文档：Hive Operators and User-Defined Functions (UDFs)。我们从这些内置的 UDF 可以看到两个用于解析 Json 的函数：get_json_object 和 json_tup 阅读全文

posted @ 2021-07-22 16:01 DB乐之者

hbase开启thrift2

摘要：thrift服务hbase本身已经集成了thrift，使用以下命令开启hbase thrift的服务器端。关闭是将start修改为stop即可。默认情况下监听9090端口。 hbase-daemon.sh start thrift2 hbase-daemons.sh start thrift2 (集阅读全文

posted @ 2021-03-29 10:54 DB乐之者阅读(1966) 评论(0) 推荐(0)

Stay hungery

随笔分类 - 开源大数据

公告