02 2023 档案

摘要:作为一名数据分析师,平常用的最多的工具是SQL(包括MySQL和Hive SQL等)。对于存储在数据库中的数据,自然用SQL提取会比较方便,但有时我们会处理一些文本数据(txt,csv),这个时候就不太好用SQL了。Python也是分析师常用的工具之一,尤其pandas更是一个数据分析的利器。虽然二 阅读全文
posted @ 2023-02-21 18:09 DB乐之者 阅读(421) 评论(0) 推荐(0) 编辑
摘要:知识点 基本流程 实验分层问题 最小样本量计算 均值类 比值类 SRM检验 指标检验 比值类 均值类 关于统计检验显著性问题 参考资料基本流程 确定基本流程和假设,确认做这个功能是为了提升/降低什么指标。 开发相关功能 设计分层实验,进行流量分配。通过PowerAnalysis计算最小样本量。 实验 阅读全文
posted @ 2023-02-16 17:00 DB乐之者 阅读(468) 评论(0) 推荐(0) 编辑
摘要:order by order by会对输入做全局排序,因此只有一个Reducer(多个Reducer无法保证全局有序),然而只有一个Reducer,会导致当输入规模较大时,消耗较长的计算时间,在生产环境中遇到数据量较大的情况,一般无法成功。 sort by sort by不是全局排序,其在数据进入r 阅读全文
posted @ 2023-02-10 15:51 DB乐之者 阅读(83) 评论(0) 推荐(0) 编辑
摘要:一、“分箱”定义 各行各业的打工人,经常会面对一种令人尴尬的质疑:为什么你把15-25归为一类,10-20不行吗?13-23不行吗? 以及地产干饭人经常会被问到的:120-140㎡是主力,那119㎡行不行,118㎡呢?这个时候,通常大部分人会说那样也行。 可是那样真的行吗?吾不以为然也。而且,不但那 阅读全文
posted @ 2023-02-07 10:13 DB乐之者 阅读(342) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示