[数据管理] 数据中台之(9)数据服务体系

9 数据服务体系

9.0 序：数据资产 => 数据服务（【资产服务化】，服务业务化）

水是生命的源泉，是人们赖以生存和发展的重要物质资源。
在日常生活中，可以通过不同的方式使用水，这也给我们的生活带来巨大便利。
在数据世界中，数据资产就好比日常生活中生命所需的水资源，无处不在且不可或缺。
但是如果没有相应的水加工厂、传输管道，人们就只能到水库打水喝，这明显会极大影响人们正常的生活和工作。
因此，将数据资产封装成数据服务，以共享接口、共享数据管道、共享数据库等方式提供给上层应用，才能极大释放、提升数据资产的价值。

数据服务体系就是把数据变为一种服务能力，通过数据服务让数据参与到业务之中，激活整个数据中台，这也是数据中台的价值所在。

9.1 补全数据应用的最后“一公里”

数据资产只有形成数据服务被业务所使用，才能体现其价值。
以往传统做法是根据某个应用产品的需要，独立构建非常多的数据接口与应用产品对接，这会形成数据接口的“孤岛”，造成大量接口的重复建设，且修改、运维、监控的成本都很大，需要抽象成可管理、可复用、可监控的统一标准下的数据服务体系。

而通过数据服务便捷地对接业务系统或应用系统，才能将数据资产灵活地使用起来，最终给企业带来各种适配业务场景的数据解决方案，从而提升效率。
数据服务作为数据中台实现资产服务化的核心能力，是连接前台业务和数据的桥梁，通过服务接口的方式对数据进行封装和开放，快速、灵活地满足上层应用的需求。
数据中台能够以提供数据服务的方式直接驱动业务，不需要大量人力的介入，即可让业务更快地产生价值。

9.1.1 定义与定位

数据服务是对数据进行计算逻辑的封装（过滤查询、多维分析和算法推理等计算逻辑），生成API服务，上层数据应用可以对接数据服务API，让数据快速应用到业务场景中。

从图9-1的数据中台架构图可见，数据服务是数据中台能力的出口，是数据应用的重要支撑。
在数据中台落地支撑业务时，数据分析师或算法工程师可以通过数据服务配置中台数据资产的访问API，这样数据应用产品可以方便地使用中台的数据能力，支撑业务决策和智能创新。

9-1 数据中台总体架构图

9.1.2 主要分类

按照数据与计算逻辑封装方式的不同，数据服务可分为以下三类：

基础数据服务
- 它面向的对象是物理表数据，主要面向的场景包括数据查询、多维分析等，通过自定义SQL的方式实现数据中台全域物理表数据的指标获取和分析。
标签画像服务
- 它面向的对象是标签数据，主要面向的场景包括标签圈人、画像分析等，通过界面配置方式实现数据中台全域标签数据跨计算、存储的统一查询分析计算，加快数据应用的开发速度。
算法模型服务
- 它面向的对象是算法模型，主要面向的场景包括：智能营销、个性化推荐和金融风控等，主要通过界面配置方式将算法模型一键部署为在线API，支撑智能应用和业务。

9.1.3 核心价值

数据服务作为补全数据应用的最后一公里，它的核心价值有以下4点：

1、确保数据在业务层的全域流通；
- 数据服务可以对数据中台的全量数据进行封装透出，让中台的数据支撑业务，加速数据业务化的流程；
- 数据业务产生的反馈数据可以流回到数据中台中，不断优化现有的数据服务，让数据在业务中持续流动起来。
2、降低数据接口的重复建设
- 前端不同的数据应用对数据的需求有些是类似的。
  - 例如客户画像和客户精准营销都对客户的特征有需求，通过统一的数据㐌创建的包含客户特征数据的接口，可以通过授权函分别提供给画像和营销两个应用。
  - 与以前的烟囱式开发相比，这样做的好处是可以避免数据接口的重复建设。通过一次创建、多次授权的方式快速交付给业务前端。
3、保障数据获取的及时性和稳定高效
- 通过统一的数据服务，对于不同业务部门给数据中台提的数据需求，中台管理方可以进行统一规划和分配，从整体上保障资源和需求的协调。
- 同时，通过数据服务中的数据，中台可以及时得到业务上的完整反馈信息，并基于真实数据及时调整；
- 若需要及时的数据，则给予实时性的保障；若需要稳定的数据，则给予可用性的保障。
4、使能数据能力扩展
- 通过统一数据中台，不断扩展数据源、优化数据资产建设、扩展数据服务封装方式，将数据能力进行持续扩展，不断给数据业务和数据应用提供更多数据价值。

9.2 常见的数据服务x4

数据服务类型是对数据使用场景的抽象提炼，可以根据不同的数据使用场景，抽象出：查询服务、执行服务、分析服务、检索服务、圈人服务、推荐服务、风控服务等多种数据服务类型。
这些最小化的数据服务可以按需组合在一起，构成一个复杂的数据服务体系，并通过交互界面的封装，形成一个数据应用产品。

由于篇幅有限，本节仅介绍4种较为常见的数据服务：

常见的数据服务
- 解释：数据服务指将数据集以标准API方式输出以服务不同业务场景需求的能力。
- 1、查询服务
  - 输入特定的查询条件，返回该条件下的数据，以API形式供上层应用调用；
- 2、分析服务
  - 借助分析组件高效的大数据分析能力，对数据进行关联分析，分析结果通过API形式供上层应用调用。
- 3、推荐服务
  - 按约定的格式提供历史日志行为数据和实时访问数据，推荐模型就会生成相应的推荐API，从而为上层应用提供推荐服务
- 4、圈人服务
  - 从全量用户数据中，基于标签组合筛选符合特征条件的人群，并以API形式对接上层应用系统。

9.2.1 查询服务

1）定义

查询服务通过一个标识（key）查询其所对应的内容，可以附加一些条件过滤选项来满足检索要求。
- 如，常见的根据账号查询其相关的档案信息、根据商品查询其销售信息等，都属于查询服务的应用场景。

2）典型特征

1、支持配置查询标识
- 查询服务一般会有一个查询标识，会根据该标识去定位具体内容；
- 底层数据组织一般会对该标识建立索引，以加快查询速度。
2、支持配置过滤项
- 过滤项配置是指用户在进行标识查询时，配置一些过滤条件，以满足个性化的数据查询需求。
- 该场景在应用层随处可见。
  - 比如，查询一个人的账单流水数据，一般会配置一个时间区间，查询该时间区间的账单流水数据。
3、支持查询结果配置
- 查询服务支持查询结果配置。
- 常见的配置包括：数据排序规则、分页规则、可选列规则。
- 数据排序：就是对查询的结果数据做排序处理，包括升序、降序、自定义排序和组合排序。
- 分页规则：通常只需要设置配液展示多少条数据即可

3）构建过程

Step1 数据接入
- 可以通过数据库、文件或API等形式把数据接入进来；
- 也可通过数据平台对接数据资产库数据，实现资产服务化的过程。
Step2 数据查询
- 可以通过传参或图形化界面进行查询配置。
- 一般会配置查询标识和过滤条件。
Step3 结果规则配置
- 对于查询好的数据，可以设置排序规则和分页规则。
- 排序规则规定按哪个字段进行排序。
- 排序方式包括：升序、降序和自定义组合排序。
- 用户可以设置多个排序规则，按排序规则的前后顺序生效。
- 用户可以设置结果数据的分页规则。
Step4 能力开放
- 所有配置完成后，查询组件最终会生成一个服务API，供上层应用调用。
- 该服务API中包含按查询规则生成的结果数据。

9.2.2 分析服务

1）定义

分析服务通过各种数据统计分析的方法，对数据做任意维度的数据分析挖掘，让数据分析人员快速了解数据集的特点，以支持数据化运营、分析决策等场景。

常见的如 BI 工具、数据化运营中的路径分析、漏斗模型等，大部分是基于这种能力来构建的。

2）典型特征

1、支持多源数据接入
- 企业的数据经过清洗借工，转换成数据资产后，最终通过服务作用于业务系统。
- 基于企业异构存储的现状，要求分析系统能够支持与Hive、ES、Greenplum、MySQL、Oracle、本地文件等多种数据源进行连接。
- 此外，它还应该支持公有云、私有云等形式的接入，从而帮助企业实现业务数据的无缝对接。
2、高性能即席查询
- 随着企业数据爆发式增长，每天产生的数据量由之前的千级别、万级别，转变为现在的百万级别、千万级别、甚至亿级别。
- 这就导致了传统的数据分析工具遇到分析能力的瓶颈，也就是对大数据量的分析越来越乏力。
- 因此，这就要求数据分析服务内置高速计算引擎，以对数据进行高性能的即席计算，实现亿级数据毫秒级（至多秒级）分析和计算，减少用户等待时间。
3、多维数据分析
- 在数据驱动决策深入人心的今天，越来越多的企业开始意识到数据的价值，从而对数据分析也提出了更高的挑战和要求。
- 分析服务除了支持常规的的数据分析、上卷下钻、切片切换之外，还应该支持多维的数据分析及深层次的数据挖掘，发现数据背后的关联关系。
4、灵活对接业务系统
- 最终的分析结果会以接口的形式输出给业务系统，供业务系统调用。
- 为了适配企业多样的业务系统，服务接口允许用户自定义构建。
- 分析服务应提供包括但不限于的配置项，以最大程度地满足业务需求：
  - 接口URL
  - 后端服务类型
  - 接口请求模式等

3）构建过程

Step1 数据接入
- “巧妇难为无米之炊，如果没有原始的数据接入，也就没有办法向上层应用提供服务。
- 而且，接入的数据必须具备分析的价值；否则，即使通过分析服务分析之后，也不会给企业带来价值信息。
- 了解了这两点之后，可以把业务所需的数据通过各种数据库、API或文件等形式与分析组件进行对接。
Step2 在线建模
- 在线建模的本质就是构建SQL语句的过程，把用户要分析的条件变为SQL语句来将数据查询出来。
- 在这个过程中，业界通常会提供2种编辑方式：
  - 一种是SQL代码编辑器；
  - 另一种是图形化界面。
- SQL代码编辑器方式：---- 支持 DATA2API 能力的数据服务平台
  - 就是让用户通过代码编辑器直接编写SQL代码，查新要分析的数据。
  - 通过SQL代码编辑器，用户可以实现较为复杂的数据分析。
  - 但对于业务人员来说，SQL代码编辑器非常不友好，由于不了解SQL，他们不能正常分析数据。
- 图形化界面方式：---- 支持开放API的BI分析软件
  - 这种方式是专门为了方便业务人员使用而设计的。
  - 业务人员通过简单的“拖拽”完成数据分析操作，再由分析组件把用户的操作转化成系统能理解的SQL语句，从而实现数据的分析和查询。
  - 这种方式对于业务人员来说非常方便，简单易上手，但是通过这种方式并不能实现复杂的数据分析。
Step3 能力开放
- 完成建模后，分析组件会自动生成一个API对外透出，当然用户也可以对API进行自定义调整。
- 对于生成的API，需要控制其使用权限，并不是所有的应用都可以调用它，只有经过审核的应用才能调用，这样可以避免数据资产的泄露。

9.2.3 推荐服务

1）定义

推荐服务即所谓的千人千面，对不同的人对物的行为进行数据挖掘，构建每个人与物之间的关系程度，来推荐人、物以满足用户的兴趣偏好，以提升用户对业务的黏性。
大家听过最多的案例之一——啤酒与尿不湿，只不过它是从物与物的关联性来找到相关的人群，以提高用户的消费力。
每个人打开手机淘宝看到的内容都不一样，这就是一种基于个人的兴趣偏好的推荐服务能力。

2）典型特征

推荐服务具备如下3大特征：

支持不同行业的推荐
- 推荐服务是具备行业属性的，不同行业背后的推荐逻辑是有区别的。
  - 比如，电商领域和内容资讯领域，同样都是浏览行为，但是在推荐模型进行计算的过程中，两者所占的比重完全不同。
    - 所以，在电商、内容资讯、视频直播、音乐媒体、社交等不同领域中，推荐服务都应该具备和该领域适配的推荐能力。
支持不同场景的推荐
- 即使在同一行业中，对于推荐的使用也会存在不同的场景。
- 还是以内容资讯类为例子：
  - 在用户冷启动场景下，应该为其推荐哪些资讯？
  - 在用户已经有浏览行为的场景下，又应该为其推荐哪些资讯？
  - 在资讯冷启动场景下，应该为其推荐哪些用户群体？
  - 在资讯已经被浏览之后，又应该为其推荐哪些用户群体？
  - 不难发现，在不同的场景下，同行业下的推荐逻辑也是完全不同的。
    - 所以，推荐服务应该覆盖这些不同的推荐场景。
支持推荐效果优化
- 推荐服务的终极目标是成为用户的贴心管家。
- 不需要用户的任何思考，推荐服务就能向用户推荐他想要查看的物品或资讯。
- 这就要求推荐服务能够自我迭代，自我更新。
- 从导入的原始数据开始，经过推荐组件生成推荐数据，再根据用户的浏览数据不断修正模型，从而使推荐效果不断优化。

3）构建过程

推荐服务的构建包含5个过程：

Step1 选择行业和场景模板
- 一般需要先选择推荐服务的应用行业
  - 是电商推荐、还是新闻资讯类推荐？
  - 是视频直播类推荐、还是社交类推荐？
  - ...
- 此外，还要选择推荐服务的应用场景
  - 是用户冷启动推荐、还是用户热启动推荐？
  - 是商品冷启动推荐、还是商品热启动推荐？
- 不同行业、不同场景背后的推荐模型各有不同。
Step2 原始数据接入
- 选择好使用的推荐模型之后，就需要把相关的数据接入进来。
- 通常要接入3类数据：
  - 用户相关的数据
  - 物品相关的数据
  - （用户和物品间）关系类数据
- 以新闻资讯类为例：
  - 用户数据包括用户的基本信息、行为习惯、兴趣偏好、性格特征等内容；
  - 物品数据包括新闻资讯的基本信息、从属关系、功能特性、价值属性等内容；
  - 关系类数据是指浏览、分享、点赞、评论等关系行为。
Step3 参数配置
- 数据导入后，通过服务参数设置可以便捷地配置推荐模型的模型结构、样本指向、目标设定、输入输出格式等参数；
- 推荐服务模型即会在设定的参数下开始自动化训练运行，直至模型稳定下来后，产出推荐结果或稳定的推荐模型。
Step4 能力开放
- 通过模型训练后最终会产生一个可供调用的推荐API，该API支持传入ID参数，实时或离线计算后，将适配该行业或场景下的推荐数据输出返回到相应的上层应用系统中。
Step5 数据回流
- 上层应用使用推荐服务提供的推荐数据后，产生的效果数据还要回流到推荐模型中，也就是要把新一轮的用户数据、物品数据和关系数据导入推荐组件中，设置一定的同步周期，通过数据不断修正推荐模型，从而大大提高推荐的准确性。

9.2.4 圈人服务

1）定义

各行各业都会涉及广告营销场景，而如何找到对的人推送广告就成了大数据场景要解决的问题。
圈人服务应运而生，通过提供人群圈选服务，帮助服务使用者从全量用户数据中基于标签组合筛选出符合指定特征的人群，并以API的形式对接上层的营销系统，从而实现营销广告的精准触达，最终达到老客户召回、休眠客户激活等运营目的。

2）典型特征

圈人服务具备3大特征：

1、支持人群圈选
- 圈人服务的核心在于人群圈选，通过SQL代码或标签取值组合等多种方式，实现人群查找，帮助用户找到对的人群
2、支持人群计量
- 营销部门或广告公司使用圈人服务选出目标人群后，往往还要考虑人群量是否符合预期。
  - 因为预算有限，不可能无限量或不计成本地对人群进行营销。
  - 因此，在通过条件圈选后，系统需要能快速计算出符合条件的人群量。
    - 如果数量多于预期，则：建议继续追加条件圈选更精准的人群；
    - 如果数量少于预期，则：建议放宽筛选条件，或者继续圈选其他合适人群。
3、支持多渠道对接
- 人群圈选、并计量测算，确认业务方所需目标人群后，需要能够将人群名单导出到相应的下游系统。
- 最简单的名单导出方式是先下载文件，再由业务人员导入到相应的业务系统中，当人群名单量达到千万甚至上亿级别时，或人群圈选需要自动化对接时，需要将人群名单直接对接到短信系统、微信投放接口、营销活动系统等。

3）构建过程

圈人服务的构建包含3个过程：

Step1 数据接入
- 圈人服务的第一步是接入人群数据，用户可以通过文件、数据库、API等多种方式导入数据。
Step2 人群圈选
- 圈人服务的本质其实是数据查询分析的过程，根据用户输入的条件，返回符合相应条件的人群数据。
- 针对不同的使用场景，通常会提供多种圈人方式，以满足不同类型客户的需求。
- 面向开发人员，可以提供SQL代码编辑器进行圈选。
  - 开发人员直接在代码编辑器中编写要查询的SQL语句，实现人群圈选。
- 面向业务人员，可以提供图形化界面进行圈选。
  - 业务人员通常对代码了解不多，所以直接通过界面拖拽标签，勾选计算逻辑的方式，能大大降低他们的学习成本。
Step3 能力开放
- 和所有其他服务一样，圈人服务最终也会以API形式向上层应用透出。
- 圈人服务通常会提供两方面的信息：
  - 1、圈选出的人群包名单
  - 2、圈选出的人群特征
- 下游的分发系统，例如：短信系统、营销活动系统、广告系统等，会根据圈人服务提供的API，将向这个人群发送符合该人群特征的文案内容、或创意广告，从而实现精准触达，提升点击率和转化率。

9.3 常见的数据应用x4

根据上文所介绍的4种数据服务，可以对接多种数据应用。
这里简单叙述3种常见的数据应用，帮助大家更好地理解它们和数据服务的关联关系。

9.3.0 数据集成：“数据孤岛”消除后的数据融合与碰撞比对

数据集成是最基础、最初级的数据应用。
- 例如，各地区政府未贯通的数据集成至总的数据仓库后，解决了：
  - 民政领域 - 跨省重复申领结婚证（重婚问题）
  - 公安领域 - 结合天网监控、跨省追击逃犯
  - ...
- 数据集成建立在汇聚各个”数据孤岛“这一前提条件之上

9.3.1 数据大屏

数据可视化大屏是一门将科学和艺术相结合的技术。
- 将数据以可视化的方式直观呈现，在诸多领域都有广泛的应用。
越来越多的政府部门、企业青睐于通过这种强视觉形式来展现重要的数据。
它是当前计算机科学的一个重要研究方向。
近年来，我国的大数据产业呈现出高速增长的趋势，其中大数据产业8大趋势之一的数据可视化也迎来了黄金发展期。
查询服务作为最常见的一种数据服务，也是可视化大屏数据来源的重要支撑部分。
用户创建查询服务接口，然后在可视化大屏里面配置相关的API，就可以支撑可视化大屏的展现。

1）定义

数据可视化大屏旨在把一些统计性、结论性、预测性数据通过可视化框架（WebGL、D3、thress.js、Mapbox、ECharts等）渲染出来、直观地呈现给读者。
可视化大屏的使用者是决策人员，它基于数据多维度分析，为管理决策提供数据支撑。
可视化大屏的使用场景主要有2大类：
- 公关/宣传
  - 一些会议展览、业绩汇报等场景，面向媒体公众展示管理成绩、营收效益的可视化，以宣扬团队实力为目的，
  - 载体多为展厅里的大屏，交互方式以轮播为主，通过小屏控制大屏的交互场景也较多。
- 监控：
  - 一些风险预警、实时作战指挥中心等场景，对管辖区域内的数据进行监测和分析，以指导制订政策为目的，
  - 载体为可视化大屏、液晶显示器、电脑等，可直接用鼠标进行交互操作。

2）发展历史

数据可视化起源于图形学，到了19世纪下半叶，系统构建可视化方法的条件日渐成熟，使其进入了黄金时期。
法国人 Charles Josep Minard 率先将可视化应用于工程和统计，其最著名的工作是1869年将1812-1813年拿破仑东征莫斯科大败而归的事件做成流图，这幅图如实展现了军队的位置、行军方向，军队汇聚、分散和重聚的地点和时间，军队减员的过程，撤退时严寒气候造成的人员伤亡等信息。

由近代护理事业的创始人南丁格尔创作的堆叠饼图，如实反映了1854年克里米亚战争4千多名英国士兵的死亡主因并不是直接战死，而是没有得到及时救治以及恶劣环境的影响。

近年来，随着计算机图形学的发展，尤其是人工智能的发展，加上科学可视化（如医院人体的CT检查、心电图等），以及人机交互界面等领域的相互促进和发展，数据可视化的发展迎来了黄金发展期。
- 数据可视化是当前计算机科学的一个重要研究方向，
- 它利用计算机对抽象信息进行直观表示，有利于快速检索信息和增强认知能力。

3）内容与功能

数据可视化的基本流程：

数据调研
数据开发
数据服务
可视化呈现

Step1 数据调研
- 需求分析是大数据可视化项目开展的前提，
- 要了解项目背景与目的、业务目标、业务范围、业务需求和功能需求等内容，
- 明确企业对可视化的期望和需求。
- 要了解企业当前数据状况，质量达不达标，满足主题域的原始数据全不全，缺失的数据是要购买还是通过公开网站获取等。
Step2 数据开发
- 数据开发是利用开发工具加工原始数据，产生可视化大屏业务所需的数据
- 通常会基于数据开发IDE进行，包括：
  - 离线开发
  - 实时开发
  - 算法开发
Step3 数据服务
- 基于加工好的数据，利用数据服务套件，对数据进行封装，生成在线的API。
Step4 可视化呈现
- 在数据可视化套件中，配置数据服务API数据源，产生可视化大屏。

9.3.2 数据报表

分析服务接口往往对接报表分析类的【分析型数据应用】。
这类数据应用重在通过图形化方式呈现各类关注指标，并通过下钻、对比、关联分析等功能实现对数据自由灵活的查看、比对、研究；
是管理者和分析师做企业经营分析或行业研究分析时的常用工具。

1）定义

什么是报表分析？
- 例如，流水账记录后，每天或者每隔一段时间由账房先生对收入及支出进行加和，得到盈亏数据。
  - 这就是最早、最基础的报表分析。
时至今日，本质不变，报表分析其实就是以各类报表为基础进行的更深一步的分析计算，以期得到能够描述报表中数据特征的数据，来指导下一阶段的工作，其分析的结果可以通过文字、数值、图形等【多种形式输出】。

2）发展阶段

报表分析按照所能够提供的能力分类，其发展大致可以划分为三个阶段，其阶段的演变基本与报表的演变历程一致。

第1阶段 传统报表时代（记录能力）
- 这个时候人们对于分析维度基本没有什么认知，分析主要集中在观察后的主观认知和简单的加减计算。
- 应用于粗放的管理模式。
- 笔者们把这时的报表分析能力叫作：记录能力。
- 这种情况一致延续到计算机的出现。
第2阶段 统计报表时代（统计能力）
- 当计算机出现后，报表逐渐开始往格式的多样化和数据的动态化方向发展。
  - 各类数据库软件拥有了实时动态变化的数据，实现了报表数据的动态化，但一般只能提供最简单的表格形式来展示数据。
  - 以Excel为代表的编辑类软件，则实现了报表格式的多样性，使用这类软件能做出复杂的报表，但需要提前准备好数据，不能动态加载数据。
- 这两种形式的报表将报表分析推到了初步分析的层面，能够通过多样化的图表形式得到侧重点不同的结论。
  - 例如，饼图的占比分析、折线图的趋势分析、雷达图的多序列数据综合价值分析；
  - 也能凭借数据的动态化特征及时得到结论，提高响应速度。
- 但这一阶段报表分析的能力主要集中在统计层面，且【无法同时满足】数据动态化及图表多样性需求。
  - 笔者们将这一阶段的报表分析能力叫作统计能力。
第3阶段 分析报表能力（分析能力）
- 随着大数据时代的到来，以及BI（Business Intelligence，商业智能）模式的出现，人们对报表飞的需求变得越来越复杂。
- 庞大的数据量、多样的数据类型、更专业的分析需求等催生了专业的报表软件，这时候的报表和报表分析已经逐渐淡化了边界。
- BI类软件就是这个时代最具代表性的产物，它具备专门的报表结构来动态加载数据，也有多样性的图表形式来分析数据、并展示结论，并且通过不断深入分析、挖掘数据的内在、潜在价值；将数据转化为知识，以帮助企业做出相对准确的经营决策，这时候的报表分析才真正迎来分析能力的时代。
- 如何将数据背后隐藏的价值通过报表分析来最大化地发挥出来，直接决定着企业运营的效率和未来的竞争力，这也是BI时代报表分析技术的研究方向。

3）内容与功能

按照对数据特征探索的深度不同，目前的报表分析从功能层面大致可以划分为3类：
- 统计报表
- 数据分析
- 数据挖掘
统计报表
- 主要集中在描述性统计的层面，通过提供灵活的、可自定义的、能便捷地生成各类表格和图表。
  - 例如，柱状图、条形图、折线图、饼图、直方图、箱线图、散点图、瀑布图、雷达图等
- 让用户能够自主地将所想变为所得。
- 它的价值主要表现在2个方面：
  - 一方面，最基础的，它将数据库中存在的数据集转变为业务人员可以读懂和获取的信息。
  - 一方面，它对数据做了描述性统计层面的处理，能够将数据一部分外在特征呈现给用户，如：
    - 频数、比例、趋势、离散程度等。
数据分析和数据挖掘
- 二者主要针对的是从数据中发现新的特征，属于探索性数据分析和验证性数据分析的角度。
- 数据分析层面
  - 常用的方法有：
    - 假设检验
    - 显著性检验
    - 相关分析
    - 距离分析
    - 回归分析
    - 聚类分析
    - 因子分析
    - 主成分分析
    - 关联分析等
- 数据挖掘层面
  - 常用的方法有：
    - 分类、聚类、复杂数据类型挖掘等
    - 其中常用的算法模型有：
      - K-Means
      - ANN
      - 神经网络模型
      - 遗传免疫算法
      - 决策树等
    - 它们能够从杂乱无章、看起来毫无关联的数据中发现潜在的特征关系，或者通过分析对已有假设进行证实或证伪。
报表分析产品从交互界面端获得用户对数据进行统计分析、数据分析、数据挖掘等类型的数据操作指令后，产生一条输入信息、并传递到分析服务，分析服务根据数据操作指令，调用后端的数据计算引擎，快速完成数据计算后，将计算结果通过输出接口传递回报表分析产品端，可视化呈现给用户。

9.3.3 智能应用

智能应用是数据应用的核心组成部分，是从数据洞察到业务创新的重要支撑。
在数据服务应用体系中，常见的只能应用包括：个性化推荐应用、精准营销应用等。
9.2节中的推荐服务、圈人服务也属于智能应用的数据服务组成部分。

1）定义

智能应用结合数据建模和人工智能等多种技术，从数据中提炼、发掘、获取有揭示性和可操作性的信息，从而为人们在基于数据进行决策或执行任务时提供有效的智能支持。

2）分类

目前在智能应用方面发展得比较成熟的行业有：
- 金融、公共安全、教育、零售、医疗健康、工业制造
- 手机及互联网娱乐、广告营销、家庭家具、交通出行等。
典型的场景应用有：
- 个性化推荐、精准营销、大数据风控、人脸识别等。
典型智能应用如下图所示：

3）内容与功能

每个智能应用场景的内容和功能都不一样，本节以个性化推荐应用和精准营销应用为例子重点说明。

1、个性化推荐应用
- 个性化推荐在日常的网络应用中无处不在。
  - 比如：网上购物、新闻APP、社交网络、音视频软件等
- 有人的地方就有推荐。
- 根据个人喜好物品的特性，或者相同喜好人群内的习惯等信息进行个性化的内容推荐，就是我们所说的个性化推荐。
- 根据数据源的不同，个性化推荐可以细分为3类：
  - 基于人口统计学的推荐
    - 主要根据系统用户的基本信息来发现用户的相关程度
  - 基于内容的推荐
    - 主要根据物品或内容的元数据，发现物品或内容的相关性
  - 基于协同过滤的推荐
    - 主要根据用户对物品或信息的偏好，发现物品或内容本身的相关性，或者发现用户的相关性。
- 个性化推荐往往在用户特征数据与目标物特征数据之间建立关联匹配算法，通过算法模型计算得出针对每个具体个体的推荐结果。
- 个性化推荐的前提条件是积累了大量用户对目标物的行为记录。
  - 例如，浏览、搜索、查询、下单、交流等。
  - 在此基础上，增加时间衰减、广泛热度、同类型、突变因子等因素的权重考量，通过推荐模型的训练运算，离线或实时计算得出推荐结果。
- 业务系统从交互界面端获得访问用户的ID信息，及用户准实时的行为表现信息，即时产生一条输入信息、并传递到推荐服务，由推荐服务根据收到的ID数据及准实时行为数据，调用后端/大数据的数据计算引擎，实时完成推荐算法或查询离线推荐结果，然后将计算或查询结果通过输出接口传递回业务系统的目标物展示界面，通过前端目标物列表呈现给用户个性化推荐的目标物结果。
2、精准营销应用
- 精准营销是指将营销信息或营销产品通过精确的定向技术推送给目标受众的营销手段。
  - 这个定义强调了2个概念：
    - 1、推送的内容既可以是营销的文案或广告等消息，也可以是要营销的产品本身。
      - 这个理念主要针对现在厂商类型和产品的多样性。
      - 例如，某奶粉厂商要投放的是广告，而媒体资讯平台要推送的就是产品本身。
    - 2、推送的效果必须是双向的，推送的内容只能被目标用户看到，且用户需要的正是你的营销内容。
      - 而在这种理念下，对精准营销技术手段的要求就非常高。
- 根据营销的渠道形式，精准营销可以分为：
  - 广告系统中的精准营销
    - 广告领域是最早运营精准营销的领域
    - 因为广告领域中每天面对的是几十亿乃至几百亿条的或优质客户流量，但是这种方式存在较大的资源浪费。
    - 因为部分流量可能对广告内容并不感兴趣。
    - 因此，广告流量联盟希望能够将流量资源的利用最大化，开始尝试构建DMP系统。
      - 每一个广告商根据自身产品特征及目标客户画像，制订精准营销计划，在DMP系统中圈选的人群会自动对接到DSP系统。
        
        Data Management Platform，数据管理平台，一种综合性的数据平台。它收集多个来源（如Cookie、移动设备ID等）的第三方数据，并对其进行汇总、分析和管理，以提供更精确的受众定向和行为分析。DMP平台可以帮助企业更好地了解和满足受众需求，提高广告及营销效果。
        
        Demand-Side Platform，广告需求方平台，是一种在线广告平台，它帮助广告主和媒体购买和管理广告展示，通过实时竞价等技术实现广告展示效果的最大化。 DSP平台可以精准定位目标受众，提高广告投放ROI等）中进行实时竞价、并精准投放。
        
        精准营销系统，精准营销系统是一种利用大数据和人工智能技术，针对潜在客户的属性、行为和需求进行分析和挖掘，以实现营销精准化的系统。通过对客户数据的深度分析，精准营销系统可以帮助企业了解客户的需求、偏好和行为，从而提供个性化的服务和定制化的产品，从而提升客户满意度和忠诚度，同时实现销售额的增长。精准营销系统一般包括数据收集、数据挖掘、数据分析、预测模型构建、精准投放和结果分析等模块，能够为企业提供全方位的营销服务。
    - 各公司的营销部门也逐渐开始使用精准营销系统，为不同的营销活动制订目标客群，圈选出的客群名单需要对接到具体的活动载体系统中去。
      - 例如：短信、微信、APP等。
  - 营销活动系统中的精准营销
    - 精准营销系统，一般需要先建立产品和用户的标签体系，形成产品画像及用户画像。
      - 通过标签圈选功能，筛选出满足标签值组合条件的人群，对接营销投放系统，并对营销效果数据进行对比分析。
    - 通过对营销人群、营销内容、营销环境、营销载体等多维组合制订不同的营销计划，淘汰效果较差的营销计划，一步步筛选出效果最好的营销计划，分析挖掘出产品与受众之间的最佳匹配关系。
    - 总体流程
      - 营销系统从营销端获得访问用户的ID信息，即时传入圈人服务，
      - 由圈人服务根据收到的ID数据，调用后端的计算引擎完成分组查询
      - 之后，将适配的营销内容通过输出接口传递回营销系统，进行相应的营销展示。

9.4 数据服务背后的产品技术

数据服务背后的产品技术主要有5种：

多样数据服务
全生命周期管理
服务安全控制
多版本管理
审计与计量计费

9.4.1 多样数据服务

为了快速支撑不同业务对数据服务的需求，数据服务有多种生成方式，通过选取合适的生成方式，快速生成适合业务的数据服务。
常见的数据服务生成方式如下：
- 标签服务化
  - 对接标签管理，快速选取所需的标签，通过配置输出满足业务场景的数据服务，实现标签服务化。
  - 这种生成方式主要面向业务人员，不需要技术基础就可以快速将数据以服务化的方式提供出去。
- 自定义SQL服务化
  - 通过把自定义SQL脚本封装成服务的方式，直接将数据变成一种服务能力对外输出，实现自定义SQL服务化。
  - 在一些对服务灵活性有较高要求的场景下，一般会选择对接数据源、并通过自定义SQL的方式来实现API。
  - 这对于服务的开发者有一定的SQL编程要求，且需要对数据库存储有一定的认知。
- 算法模型服务化
  - 对接算法模型，通过部署算法模型的方式输出模型服务，实现算法模型服务化。
  - 将算法人员实施的算法模型快速进行工程化、服务化实现，让算法人员在不具备工程化能力的企业也具备算法工程化的能力，快速将算法技术赋能业务。
- 注册API服务化
  - 企业还有一些特殊的API，也需要统一管控，支持将企业已有的API注册到数据服务进行统一管控和输出，实现注册API服务化。
  - 统一企业的服务出口，统一欧冠API，形成企业服务能力中心。

9.4.2 生命周期管理

对API服务提供完整的生命周期管理，可以大大降低日常维护成本，包括：
- API服务的新建、维护/更新、上线、下线、授权、监控等。
数据服务的生命周期全链路主要分为5个阶段：
- Step1 服务的创建部署
  - 服务的创建前提是已经明确该服务的使用场景，是用于报表分析、活动定向人群投放、还是用于金融交易风控，亦或其他。
  - 只有明确了该服务的应用场景，解决何种问题的目标，才能明确创建服务时选择哪种服务组件。
  - 另外，在服务组件的选型完成后，还要考虑服务部署的环境，部署环境分为：
    - 本地机房服务器环境、云服务器环境、远程Docker仓库环境等。
  - 准备工作就绪后，即可创建一个服务，服务创建时底层会将该组件包部署在所选择的环境中，一旦部署完成，平台上即可查看到服务的成功运行状态、部署过程日志、服务相关详情信息等。
- Step2 服务的授权赋能
  - 服务在部署完成后，仅服务的创建者有权直接使用该服务，其他用户必须经过授权才能访问。
- Step3 服务的运行监控
  - 服务在经过创建、部署、授权后，可以正常运行使用，在运行使用的过程中需要有自动化的运维监控机制来保障服务状态正常。
  - 服务正常运行时需要能够监控记录服务的运行时长、历史出错频率等重要参考信息。
  - 这样，一旦服务出现故障，自动化运维监控机制可以及时告警通知相关人员，从而尽量减少故障带来的损失。
- Step4 服务的更新升级
  - 服务部署、并投入使用后，并不是一成不变的，中间可能会存在组件升级、数据异常重配、环境缩扩容等情况，此时需要对服务进行更新升级。
- Step5 服务的到期停服下架
  - 服务到期或者不需要使用时，需要终止服务、并将服务下架，此为该服务的生命周期的最后阶段。

9.4.3 服务安全控制

服务提供时，需要考虑服务的稳定性和安全性，在保障服务稳定的同时保证数据可控、范围可控等。
稳定性方面，主要考虑做好自动扩容、容错等相关的工作。
- 一般采用分布式部署机制，提高性能及可靠性。
完备的服务安全防护机制包括如下方面：
- 鉴权机制：
  - 支持对API和授权应用进行鉴权，识别接口请求的身份。
  - 常见的鉴权机制有AK鉴权、Access Token、JWT等。
- 黑白名单：
  - 支持设置IP黑名单，控制服务调用权限。
- 申请审批：
  - 经过授权或申请审批通过的API，才能被应用使用。

9.4.4 多版本管理

服务在应用到具体场景的过程中，有必要对多版本提供支持。常见的场景有：
- 业务不同阶段的需求变化会导致服务经常升级、回滚。
- 服务升级后，老服务支撑的业务无法短期升级，需通过多版本来支撑过渡。
- 蓝绿部署、灰度验证等场景的需要。
数据服务通过对服务的多版本管理，可以便捷支持切换服务多版本；同时，支持蓝绿部署和灰度验证，以及业务需求的升级和回滚，有效保障服务的连续性。其中，主要涉及如下2个关键点：
- （1）多版本服务在线
  - 多版本最常见的实现方法是通过服务的版本标识，让使用者可以快速分区当前使用的版本是什么？也方便不同版本之间的逻辑隔离，从而避免升级时对原业务产生影响。
- （2）服务路由管控
  - 蓝绿部署，主要是指在部署时，如何保障业务不停机，用户最小感知。
  - 灰度验证，是新部署的服务能力，找一小部分流量来进行验证，确认验证成功对实际业务无影响时，再将服务应用到全部流量。
    - 这是一种对使用方的切分验证方式，
  - 这两种方式都需要通过服务调用的路由控制来实现，蓝绿部署是调用路由在两个不同版本之间的切换，而灰度部署则是在不同版本上流量的分拆验证。

9.4.5 审计与计量计费

其一，服务授权后，需要对服务的使用情况进行审计监控。
- 以服务为对象，统计该服务的所有调用方信息、总调用情况、成功调用次数统计、失败调用次数统计等，为后续计量计费、访问控制、流量控制提供审计数据基础，
- 审计控制模块为服务API的调用情况提供了全链路的追踪溯源，为服务的提供方和调用方带来了极大便利，是服务管理、服务监控、服务分析、服务运维的不可获取的重要模块。
其二，数据服务的审计功能主要包括：
- 服务API的审计列表
- API调用成功记录
- API调用失败记录
- API调用方来源审计记录
通过审计监控记录，服务的管理者能够直观获取服务的使用概况。
同时，审计模块记录的历史数据支持在线可视化展现，辅助服务管理者分析服务历史调用情况，服务API的稳定情况，服务API的访问时长、成功率、失败率、高频访问对象等，以及访问的高峰期和低谷期等，来制订各阶段的扩缩容策略。
通过审计控制可以获取很多API相关信息，通过这些审计结果数据的分析可以整理出以下指标：
- 服务接口调用接口总计：
  - 平台监控所有服务的接口，并将各服务接口调用信息进行归类、汇总、统计，由此根据相关权重规则即可分析出热门服务使用排名，重点监控此类服务对象。
  - 不同服务的接口总数也不尽相同，要根据该服务组件开发设计而定，可以以服务为研究对象，细分统计服务下的各个API调用情况、超时超级、异常结果分类等。
- 今日调用接口总计：
  - 统计当天所有调用过的API情况，可用于统计历史每天的接口总计数、历史每月接口总计数，
  - 为后续计量计费选择何种计费模式提供数据参考依据，让用户能够对历史使用情况有个大致数据体量的感知，辅助用户进行相关决策分析。
- 今日接口调用时段分析：
  - 统计当天各个时段的接口数分布，
  - 用来分析API调用的高峰期和低峰期，帮助用户察觉和关注高峰期调用上限值，
  - 从而合理安排相关系统运行时段，错开高峰期，避免同时高并发请求带来的系统性能瓶颈问题等。
- 热门调用接口分布：
  - 平台通过统计各服务的所有接口总计数来获取热门接口调用排名情况，以此来货值哪些接口是调用相关频繁的，哪些接口是调用相对低频的；
  - 可以对重点接口进行单独监控，通过自动化接口测试运维等方式来保障关节节点接口的稳定性和健壮性。
其三，数据服务的计量计费主要包括：各个数据服务的API调用量、占用后台的资源量等。
- API的计量计费方式包括2种，分别是：按次计费和按时计费。
- 按次计费：根据统计用户调用API次数来实现计费。
  - 用户按需来选择相应的API服务，根据预期计算需要调用API的频数来预估自己的调用次数区间，数据服务管理系统提供不同调用次数区间分档供用户选择。
- 按时长计费：
  - 当用户调用API比较频繁或者有持续调用API的场景是，可以按市场计费。
  - 例如：1个月、3个月、半年、全能，或者自定义时间段。
其四，数据服务作为数据中台对外能力的核心载体，是连接业务前台和后台的桥梁。
- 数据中台能够以提供数据服务的方式直接支撑数据应用，距离业务更近，让业务更快地产生价值。

9.Y 小结

本章从数据服务的价值出发，首先阐述数据服务的定义与定位，简单描述数据服务的4个核心价值和3大核心能力，然后重点介绍了4种场景数据服务的定义、特点和构建过程，接着着重说明3种常见数据应用以及和数据服务的关系，最后介绍了数据服务背后的产品和技术。

9.X 中台手记（六）：解决"数据应用最后一公里"问题

"数据资产建设中构建了完善的统一数仓层，目的是让数据更好地用起来，而这除了数据层面要做支持，还需要把数据以对使用者友好的方式输出给业务应用。
还记得之前，咱们给业务部门做汇报时，提过的那个商业地产的案例吗？
这个已经实现了，如上就是业务部门想要的客户画像、客户洞察。"

X 参考文献

《数据中台：让数据用起来》 | 2020 . 机械工业出版社

posted @ 2023-11-30 13:04 千千寰宇阅读(817) 评论(0) 收藏举报

刷新页面返回顶部

千千寰宇

大数据与Java软件开发从业者，数智化转型实践者。【好物推荐】

[数据管理] 数据中台之(9)数据服务体系

9 数据服务体系

9.0 序：数据资产 => 数据服务（【资产服务化】，服务业务化）

9.1 补全数据应用的最后“一公里”

9.1.1 定义与定位

9.1.2 主要分类

9.1.3 核心价值

9.2 常见的数据服务x4

9.2.1 查询服务

1）定义

2）典型特征

3）构建过程

9.2.2 分析服务

1）定义

2）典型特征

3）构建过程

9.2.3 推荐服务

1）定义

2）典型特征

3）构建过程

9.2.4 圈人服务

1）定义

2）典型特征

3）构建过程

9.3 常见的数据应用x4

9.3.0 数据集成：“数据孤岛”消除后的数据融合与碰撞比对

9.3.1 数据大屏

1）定义

2）发展历史

3）内容与功能

9.3.2 数据报表

1）定义

2）发展阶段

3）内容与功能

9.3.3 智能应用

1）定义

2）分类

3）内容与功能

9.4 数据服务背后的产品技术

9.4.1 多样数据服务

9.4.2 生命周期管理

9.4.3 服务安全控制

9.4.4 多版本管理

9.4.5 审计与计量计费

9.Y 小结

9.X 中台手记（六）：解决"数据应用最后一公里"问题

X 参考文献

公告