DB乐之者 - 博客园

2023年2月21日

摘要：作为一名数据分析师，平常用的最多的工具是SQL(包括MySQL和Hive SQL等)。对于存储在数据库中的数据，自然用SQL提取会比较方便，但有时我们会处理一些文本数据(txt,csv)，这个时候就不太好用SQL了。Python也是分析师常用的工具之一，尤其pandas更是一个数据分析的利器。虽然二阅读全文

posted @ 2023-02-21 18:09 DB乐之者阅读(527) 评论(0) 推荐(0)

2023年2月16日

AB实验基本流程

摘要：知识点基本流程实验分层问题最小样本量计算均值类比值类 SRM检验指标检验比值类均值类关于统计检验显著性问题参考资料基本流程确定基本流程和假设，确认做这个功能是为了提升/降低什么指标。开发相关功能设计分层实验，进行流量分配。通过PowerAnalysis计算最小样本量。实验阅读全文

posted @ 2023-02-16 17:00 DB乐之者阅读(645) 评论(0) 推荐(0)

2023年2月10日

hive 的order by ,sort by，distribute by，cluster by

摘要： order by order by会对输入做全局排序，因此只有一个Reducer(多个Reducer无法保证全局有序)，然而只有一个Reducer，会导致当输入规模较大时，消耗较长的计算时间，在生产环境中遇到数据量较大的情况，一般无法成功。 sort by sort by不是全局排序，其在数据进入r 阅读全文

posted @ 2023-02-10 15:51 DB乐之者阅读(124) 评论(0) 推荐(0)

2023年2月7日

K-means分箱

摘要：一、“分箱”定义各行各业的打工人，经常会面对一种令人尴尬的质疑：为什么你把15-25归为一类，10-20不行吗？13-23不行吗？以及地产干饭人经常会被问到的：120-140㎡是主力，那119㎡行不行，118㎡呢？这个时候，通常大部分人会说那样也行。可是那样真的行吗？吾不以为然也。而且，不但那阅读全文

posted @ 2023-02-07 10:13 DB乐之者阅读(436) 评论(0) 推荐(0)

2023年1月30日

hive自增ID

摘要：自增列的生成 over()里不带排序或order by 1是一样的效果 select row_number() over() as id,a1.id,relationwords,relation_words from ods.ods_wpt_management_search_relation_wo 阅读全文

posted @ 2023-01-30 09:08 DB乐之者阅读(145) 评论(0) 推荐(0)

2023年1月29日

hivesql和prestosql对比

摘要：背景最近很多时候需要将hivesql转化为prestosql ,这里面有很多不能直接复用需要调整func甚至改用其他逻辑。为了后续方便查询，后面将总结以下经常用到的sql记录下来方便后续使用。爆炸函数实现 hive：SELECT student,score FROM tests LATERAL 阅读全文

posted @ 2023-01-29 19:10 DB乐之者阅读(442) 评论(0) 推荐(0)

2023年1月12日

windows 安装superset

摘要：安装过程新建虚拟环境：conda create -n superset python=3.7 激活虚拟环境：conda activate superset -安装superset：pip install apache-superset -i [https://pypi.douban.com/sim 阅读全文

posted @ 2023-01-12 18:06 DB乐之者阅读(464) 评论(0) 推荐(0)

2022年9月29日

Doris rollup介绍

摘要： Rollup Rollup的根本作用就是提升某些查询的查询效率，也称为物化索引。 Rollup属于Base表，Base表可以增删Rollup，Rollup完全和Base表同步更新，Base表数据发生变化，Rollup也会跟随Base表变化。 Rollup完全独立存储，因此要考虑存储问题。 Rollu 阅读全文

posted @ 2022-09-29 11:15 DB乐之者阅读(680) 评论(0) 推荐(0)

2022年7月28日

HBase常用的Filter总结

摘要：简介：根据技术调研的过程可以明显的体会到hbase的存储方式和数据库的存储有着明显的区别，查询的方式也有着很大不同，HBase主要是通过这种filter来对数据进行筛选。同时对于数据的体量较大（10亿级别以上的数据数据量），检索和修改的场景较多时是比较适合使用hbase。 HBase过滤器可以根据阅读全文

posted @ 2022-07-28 10:38 DB乐之者阅读(1965) 评论(0) 推荐(0)

2022年3月27日

数据库角色

摘要：数据库角色为了帮助管理数据库级别的安全性，SQL Server具有数据库角色。就像服务器角色一样，也有两种不同类型的数据库角色:固定的和用户定义的。固定的数据库角色就像固定的服务器角色一样，这意味着它们拥有一组特定的权限，这些权限不能被更改。固定的数据库角色只提供对特定数据库中的数据库资源的权限阅读全文

posted @ 2022-03-27 22:12 DB乐之者阅读(518) 评论(0) 推荐(0)

Stay hungery

公告