公告

【业务建模_2】通用数据工具

背景

在公司做数据工作会接触很多相关工具，这里会汇总一些核心并更理想化的工具。

工具汇总

1.打点平台

module,op,参数数组(s0-s5),常用参数,[实际打点位置截图,打点触发条件说明]
——后两者暂时没有，但在使用过程中发现经常不知道某个打点到底是什么意思。打点变化太快了，而且历史打点不规范经常没有人上传原型流程图；实时测试打点有延迟，测完发现少很多认为应该有的点，多了一些不应该有的点；有些点可能是开发直接加的点，未经过打点平台，没有中文名字比较难理解；即使有的点看懂了，实际触发条件并不一定是所想的。
另外，日志中经常有一系列相关的点需要一起看，增加系列（也可以说增加多层module）和系列层级也许会更好。
有什么工具可以图形化显示op关系？比如我以前用Excel树状结构来表示，但op太多太复杂也很难看。
——其实我想过在可视化日志统计上实现这样的功能，即在图形甚至原型流程图上显示uv/转化率/pv比uv等数据；还有个想法是在看单个人的日志时发现很难理解用户操作流程，能直接开发个工具将日志流复现为原型流程图甚至动态的app操作更好了（想得美==）。

2.事件分析&漏斗分析

基于日志数据，甚至整合常用维度（比如城市、性别等）。
事件分析，即基于一个度量事物（比如uv），能进行筛选，并可按某些维度分组计算。
漏斗分析，即基于一系列事件的某个度量事物，能筛选，并能组织漏斗上下层级是left join还是只是不left join（上下层事件互相独立）。

3.timeline

按时间点组织，将各个时间点发生的版本升级、功能变化等等时间记录下来，并标签可能影响的指标，便于分析时关联上。
——这个是我一直想做但没做的。

4.hive/spark

这一套指整个离线数仓，t+1同步。通常需要了解线上表（找开发问）+同步过程（数仓负责，涉及数据字典和同步规则——增量全量拉链等）+线下表。
hive/spark是在持续版本更新的，UDF也需要数仓去建，所以在写SQL应用某些函数时遇到不能解决的可以问数仓。

5.报表&可视化平台

大小公司必不可少的，使用者通常是不懂数据的业务人员+老板。差一点的就直接是报表和固定的可视化内容，好一点是能由分析师自建可视化内容共享出来。
这里涉及到数据表建模，中间表任务，前端可视化控件。
——其实最重要的是数据表建模，玩过tableau都知道就是一些事实表+维度表，然后创建各种维度和计算度量就好。但很多时候没有人知道数据建模这个职能的存在，所以经常是分析师玩自己的，BI团队建自己的，然后并没有人用。

6.实时流量平台

这个主要针对需要实时监控的指标，例如收入，uv等。

7.定时邮件任务&表任务工具

分析师经常会接到一些快速报表需求，直接用SQL出表，此时定时邮件任务就很好用了。
很多时候底层表太麻烦，或一条SQL很难搞定的，也会自己建中间表；或者有些外部数据要应用到SQL中，建表辅助也是很好用的。
——其实有建表+邮件工具+可视化控件，报表需求分析师都能搞定。

posted on 2019-02-15 12:14 everda 阅读(453) 评论(0) 收藏举报

刷新页面返回顶部