everda

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

背景

在公司做数据工作会接触很多相关工具,这里会汇总一些核心并更理想化的工具。

工具汇总

1.打点平台

module,op,参数数组(s0-s5),常用参数,[实际打点位置截图,打点触发条件说明]
——后两者暂时没有,但在使用过程中发现经常不知道某个打点到底是什么意思。打点变化太快了,而且历史打点不规范经常没有人上传原型流程图;实时测试打点有延迟,测完发现少很多认为应该有的点,多了一些不应该有的点;有些点可能是开发直接加的点,未经过打点平台,没有中文名字比较难理解;即使有的点看懂了,实际触发条件并不一定是所想的。
另外,日志中经常有一系列相关的点需要一起看,增加系列(也可以说增加多层module)和系列层级也许会更好。
有什么工具可以图形化显示op关系?比如我以前用Excel树状结构来表示,但op太多太复杂也很难看。
——其实我想过在可视化日志统计上实现这样的功能,即在图形甚至原型流程图上显示uv/转化率/pv比uv等数据;还有个想法是在看单个人的日志时发现很难理解用户操作流程,能直接开发个工具将日志流复现为原型流程图甚至动态的app操作更好了(想得美==)。

2.事件分析&漏斗分析

基于日志数据,甚至整合常用维度(比如城市、性别等)。
事件分析,即基于一个度量事物(比如uv),能进行筛选,并可按某些维度分组计算。
漏斗分析,即基于一系列事件的某个度量事物,能筛选,并能组织漏斗上下层级是left join还是只是不left join(上下层事件互相独立)。

3.timeline

按时间点组织,将各个时间点发生的版本升级、功能变化等等时间记录下来,并标签可能影响的指标,便于分析时关联上。
——这个是我一直想做但没做的。

4.hive/spark

这一套指整个离线数仓,t+1同步。通常需要了解线上表(找开发问)+同步过程(数仓负责,涉及数据字典和同步规则——增量全量拉链等)+线下表。
hive/spark是在持续版本更新的,UDF也需要数仓去建,所以在写SQL应用某些函数时遇到不能解决的可以问数仓。

5.报表&可视化平台

大小公司必不可少的,使用者通常是不懂数据的业务人员+老板。差一点的就直接是报表和固定的可视化内容,好一点是能由分析师自建可视化内容共享出来。
这里涉及到数据表建模,中间表任务,前端可视化控件。
——其实最重要的是数据表建模,玩过tableau都知道就是一些事实表+维度表,然后创建各种维度和计算度量就好。但很多时候没有人知道数据建模这个职能的存在,所以经常是分析师玩自己的,BI团队建自己的,然后并没有人用。

6.实时流量平台

这个主要针对需要实时监控的指标,例如收入,uv等。

7.定时邮件任务&表任务工具

分析师经常会接到一些快速报表需求,直接用SQL出表,此时定时邮件任务就很好用了。
很多时候底层表太麻烦,或一条SQL很难搞定的,也会自己建中间表;或者有些外部数据要应用到SQL中,建表辅助也是很好用的。
——其实有建表+邮件工具+可视化控件,报表需求分析师都能搞定。

posted on 2019-02-15 12:14  everda  阅读(420)  评论(0编辑  收藏  举报