某公司的大数据团队
-
某公司整体大数据团队涵盖的两大技术方向:
- 数据研发方向: 数据资料的清洗, 加工, 整合, 挖掘, 管理, 运营. 涉及批处理和实时数据仓库, 数据管理, 数据价值落地等
- 数据系统研发方向: 批处理以及实时数仓开发工具链, BI系统, 数据管理系统, 的系统的研发
-
对于各个业务线, 形成以基础研发部为核心的技术支撑, 业务线的数据工种主要是基于本业务线的数据, 形成小兵团, 灵活地完成业务线中需要实现的内容
-
每个形成了BG的业务线都有其自己的
数据工程师团队
和数据科学家团队
- 数据工程师团队主要的工作是构建中心化的公共数据建设
- 数据科学家团队主要是基于业务数据, 为公司领导层提供经营分析和建议
-
全公司级别的大数据团队, 作为单独的技术部门, 对于各个BG的业务提供能力支持
-
以
某公司金融服务
为例子, 数据工程师的工作职责:- 搭建并优化数据体系 (数据仓库, 数据应用, 实时统计)
- 对于安全性, 存储计算成本, 查询性能, 用户体验进行综合优化
- 参与建设商业智能系统: 到数据, 灵活, 在线分析, 自动归因, 智能预测
- 为业务提供数据解决方案 (数据采集, 安全合规, 实验设计, 评价监控, 数据挖掘, 智能决策)
-
数据团队在业务的不同发展阶段的角色:
- 初创期: 业务从无到有的阶段
- 主要矛盾是找到令人信服的商业模式
- 业务上的主要压力在后端与前端的开发
- 数据上主要是一些基础指标的表现, 为商业决策提供支持. 基本不需要专业数据分析人员介入
- 成长期: 商业模式已经被证明是可行的, 进行扩张和抢占市场阶段
- 主要矛盾是既要保证现有任务的稳定性, 又要支持新增的大量需求, 打好数据基础, 做好需求管理
- 是业务上全线压力最大的阶段
- 对于数据技术的任务是高效应对需求以及保障现有任务的稳定性和数据的准确性
- 成熟期: 业务规模已经达到预期, 开始追求盈利, 业务的基本思路已经确定
- 主要矛盾: 需要建立系统的指标体系整理前期的系统, 需要更加精细地使用数据科学知道经营, 使用例如用户画像地手段提高运营ROI
- 新增需求的数量减少, 更多的开始追求系统的质量以及效率
- 对于数据技术, 主要的工作是做好数据治理以及内容的体系化管理, 抽象出更加合理的系统层级
- 持续发展期: 需要通过数据扩大利润, 需要结合行业理解以及多元数据, 结合业务特点发现高价值用户, 发现高价值用户, 丰富业务的利润结构
- 主要矛盾: 需要对业务以及用户进行更加深入的理解, 使用数据发现业务与经营中的潜在利润点
- 深化数据分析的质量要求, 要求成为
懂数据开发技术, 懂产品业务逻辑, 懂商业, 懂分析, 懂经营策略, 懂运营策略, 能进行团队合作
的多维度的业务数据专家
- 初创期: 业务从无到有的阶段
-
数据团队相对于整体公司AI的地位:
-
目前某公司技术团队的状态:
- 数据平台技术体系,早已经度过了“基于开源搭一搭,魔改一下就能解决问题”的阶段,业界开源技术已经不能满足业务需求,需要在部分领域构建能力做自研。
- 需要通过紧密结合业务问题和领域技术发展趋势,向内深度自我洞察、自我反思,在领域内自我技术突破、从工程技术支撑业务到工程技术驱动业务的转变。
- 有一个大的集群。而其他很多公司只是一些小的平台或者小的自建的集群,数据打通共享是个大问题,当然这跟公司的发展阶段有很大的关系。在机器学习训练部分,我们可以做到700并发0.7倍的加速比,推理部分BERT模型性能可以超越业界state-of-the-art 1~2倍的样子
- 数据技术团队的KPI主要看两部分,一是能不能支撑好全公司所有数据团队的工作,比如开发效率、数据使用效率等;二是要考虑与全局数据成本、全局数据质量相关的一些KPI。