摘要:
作为一名数据分析师,平常用的最多的工具是SQL(包括MySQL和Hive SQL等)。对于存储在数据库中的数据,自然用SQL提取会比较方便,但有时我们会处理一些文本数据(txt,csv),这个时候就不太好用SQL了。Python也是分析师常用的工具之一,尤其pandas更是一个数据分析的利器。虽然二 阅读全文
摘要:
知识点 基本流程 实验分层问题 最小样本量计算 均值类 比值类 SRM检验 指标检验 比值类 均值类 关于统计检验显著性问题 参考资料基本流程 确定基本流程和假设,确认做这个功能是为了提升/降低什么指标。 开发相关功能 设计分层实验,进行流量分配。通过PowerAnalysis计算最小样本量。 实验 阅读全文
摘要:
order by order by会对输入做全局排序,因此只有一个Reducer(多个Reducer无法保证全局有序),然而只有一个Reducer,会导致当输入规模较大时,消耗较长的计算时间,在生产环境中遇到数据量较大的情况,一般无法成功。 sort by sort by不是全局排序,其在数据进入r 阅读全文
摘要:
一、“分箱”定义 各行各业的打工人,经常会面对一种令人尴尬的质疑:为什么你把15-25归为一类,10-20不行吗?13-23不行吗? 以及地产干饭人经常会被问到的:120-140㎡是主力,那119㎡行不行,118㎡呢?这个时候,通常大部分人会说那样也行。 可是那样真的行吗?吾不以为然也。而且,不但那 阅读全文
摘要:
自增列的生成 over()里不带排序或order by 1是一样的效果 select row_number() over() as id,a1.id,relationwords,relation_words from ods.ods_wpt_management_search_relation_wo 阅读全文
摘要:
背景 最近很多时候需要将hivesql转化为prestosql ,这里面有很多不能直接复用需要调整func甚至改用其他逻辑。 为了后续方便查询,后面将总结以下经常用到的sql记录下来方便后续使用。 爆炸函数实现 hive:SELECT student,score FROM tests LATERAL 阅读全文
摘要:
安装过程 新建虚拟环境:conda create -n superset python=3.7 激活虚拟环境:conda activate superset -安装superset:pip install apache-superset -i [https://pypi.douban.com/sim 阅读全文
摘要:
Rollup Rollup的根本作用就是提升某些查询的查询效率,也称为物化索引。 Rollup属于Base表,Base表可以增删Rollup,Rollup完全和Base表同步更新,Base表数据发生变化,Rollup也会跟随Base表变化。 Rollup完全独立存储,因此要考虑存储问题。 Rollu 阅读全文
摘要:
简介: 根据技术调研的过程可以明显的体会到hbase的存储方式和数据库的存储有着明显的区别,查询的方式也有着很大不同,HBase主要是通过这种filter来对数据进行筛选。同时对于数据的体量较大(10亿级别以上的数据数据量),检索和修改的场景较多时是比较适合使用hbase。 HBase过滤器可以根据 阅读全文
摘要:
数据库角色 为了帮助管理数据库级别的安全性,SQL Server具有数据库角色。就像服务器角色一样,也有两种不同类型的数据库角色:固定的和用户定义的。固定的数据库角色就像固定的服务器角色一样,这意味着它们拥有一组特定的权限,这些权限不能被更改。 固定的数据库角色只提供对特定数据库中的数据库资源的权限 阅读全文