随笔- 165 文章- 2 评论- 332 阅读- 525万

【转载】蚂蚁集团骆骥谈如何打造下一代智能数据体系

本文整理自2024外滩大会“Data+AI”见解论坛骆骥（蚂蚁集团数据平台与服务部负责人)的演讲实录

在过去这两年时间，生成式人工智能在科技领域取得了重大的突破，海量的数据和庞大的算力相碰撞，推动了无数科技产品的创新。在这样一个快速发展的智能化时代下，我们也看到数据技术领域也正在飞奔，进入一个全新的历史阶段，一个充满着史无前例的挑战与机遇的阶段。

在我们深入探讨当下的数据智能体系之前，想先和大家一起简要回顾一下数据领域技术发展的历程。在90年代，互联网悄然来临。在这个时代里，高效的数据库存储与管理技术，为广大中小微企业的信息数字化奠定了基础，有效支撑了电子商务等业务的发展。相应的，数据库等数据领域技术也一步步的向着高性能、高可用等方向发展。

当我们时间来到2003-2006年这三年间，MapReduce、Bigtable和Google File System三篇关于大规模分布式数据存储和计算分析的论文，开启了工业界的大数据时代。与此同时，随着移动无线互联网的普及，智能手机、各类APP应用、小程序的应用，使得数据画像的丰富度得到空前提升，基于大数据技术的千人千面的更加个性化的服务蓬勃发展。在这样的一个大数据的时代下，面向大规模数据极致的成本、性能和效率成为我们数据技术发展的主旋律。

2017年，一篇“Attention is All You Need”论文为生成式人工智能的发展奠定了关键的基础。以大模型为核心的智能化技术，围绕智能体的开放生态，让未来每个人都拥有全方位智能管家的服务成为可能，这也让数据领域开启了一个数智融合的新时代。

数据体系正在从成本&效率中心向价值中心转变

我们认为从大数据时代到数智融合的新时代，整个数据体系正在从成本效率中心向价值中心进行转变。在大数据时代，数据技术定位侧重于基础设施层面，无论是数据处理与服务的延迟、吞吐量、以及资源利用率背后的成本等等，定义了大规模数据存储和计算分析的核心技术竞争力。然而，随着我们迈入数智融合时代，数据技术的定位侧重发生了根本性的变化。

在数智融合时代，数据资产本身的规模、多样性、质量特别是内容的准确性等等是决定智能化效果的关键之一，数据更加直接的影响到智能化应用的效果，其价值日益彰显。我们看到，从数据资产的生产、加工与服务、消费与应用等各个环节都需要围绕数据的价值化这一全新的视角去构建相应的体系与技术能力。

01 数据生产方式的拓展

首先，数据生产方式的拓展是数智融合时代的一个重要标志。传统的搜索推荐和千人千面的服务重度依赖全网信息汇集，即通过网络爬虫等技术手段在合法合规的条件下广泛的抓取互联网上的公开数据，以及融合私域的专有数据为用户提供个性化的服务。

然而，在数智融合的新时代下，数据的生产进一步的扩展到了对日常生活点滴的细致记录与捕捉，例如可穿戴设备、智能家电及各种物联网终端所生产的数据，都在不断充实并丰富着我们的数据集合。这突破了传统互联网数据的局限性：我们认为人类、机器，甚至未来具身智能的所见所闻皆为可数字化，皆可沉淀为用于智能化的数据资产，也皆蕴含着巨大的价值。所以我们相信未来数据智能化的发展不是局限于当下互联网上有多少电子化的书籍，任何所见所闻、所思所想都可以被数字化，都是未来智能化发展非常重要的关键技术。

我们也要认识到，当下全网信息的汇集越来越逼近大上限，所见所闻的记录需要长时间、长期的积累，并且质量是参差不齐的。为了进一步提高智能化的应用效果，专业的数据、高品质的数据是其中非常关键的，所以专业化的数据标注与合成技术的作用显得愈发举足轻重。

我从工业界的角度也想再次强调数据的标注也非常重要。就像传统教育界从小学开始经过培训，这些教材都是通过专家、学者编撰而成的，都是人工产出的。在大模型时代下，数据标注与合成技术是确保大模型训练所需的数据品质的关键，也是未来各方持续构建并提升生成式人工智能核心竞争力的关键。

这种由量向质的数据生产方式的变革，不仅显著提升整个智能化系统的可靠性，还会极大的提高了其处理复杂任务的能力，从而真正意义上推动了数智融合时代的发展，使其能够在更多的垂直行业领域内展现出前所未有的应用潜力，打开当下智能化的天花板。

02 数据资产加工与服务的演进数据资产加工和服务，也需要在数智融合的时代下不断地演进和革新。

1.数据的形态正在从结构化向非结构化延展

根据IDC的数据预测，到2027年，全球非结构化数据的占比达到整个数据总量的86.8%，达到近250ZB。与传统的结构化数据加工处理不同，非结构化数据加工处理会涉及到融合多源异构全模态的数据，比如说文本、图片、音频和视频等等，并因此面临着许多新的挑战。

这里给大家举个例子，我们在构建大模型的数据体系里面，还可能会涉及到跨模态的数据互转问题，将一段视频里面的声音转变成文字，可能我们会得到一段文本的训练语料。这些都是我们需要去解决的问题。

在数据清洗与质量评估方面，除了传统的结构化数据中的以固定规则范式表达的结构性质量外，非结构化数据中的内容质量（例如多样性，可信度等）以及表达质量（例如语法、语义、逻辑性等）都需要被关注。

在数据挖掘方面，传统的结构化数据我们有经典的特征挖掘，但是在非结构化数据，内容理解我们认为才是后续智能化应用的关键基础。在数据审核方面，表单的检验校对是发现传统的结构化数据可能问题的重要手段，而对文本、图片、视频等非结构化数据的专业审核是控制数据毒性、防止数据污染的必要方式。

2.数据服务正在从面向用户向面向机器与智能体延展

另一方面，我们认为数据加工和服务正在从面向用户向面向机器和智能体方向发生延展。在未来智能化的应用形态上，我们判断，传统的应用将向基于多智能体协作的智能助理及具身智能的形态上发展。得益于生成式人工智能在自然语言理解、在多模态上面的理解和表达能力上的巨大进步，应用的交互方式也将会从传统人工智能交互的UI图形交互向着更简化、更自然的人机交互方向发展。

在这两者基础上，相应的数据服务业会发生延展，包括：

第一，在面向机器与智能体的的交互模式下，Agent之间的语义表达的革新，可以突破传统的面向人的视听表达，更加高效。例如，传统的人类视觉关注像素和由它们产生的色彩、饱和度这些信息，而在Agent处理特定任务时（比如检测、分割、识别、跟踪等），所需要的只是里面的某些特征值，就可以在保持性能不下降地完成给定任务。我们注意到，在生成式人工智能下的多媒体数据的特征有许多预设可控的空间，所以在Agent应用之间的表达效率可以显著的提高。
第二，在新的沉浸式交互下，基于生成式人工智能构建的多媒体数据的编解码方式，以及基于生成式人工智能的渲染方式，都面临着新的挑战。举几个例子，由于视频内容是生成的，ROI区域可能是已知的，这样我们就可以利用这些额外信息进行失真率优化和更有效的分配码率。另一个例子是在生成式智能的渲染中，可以根据要生成的对象物体，根据预设的光流信息，进行更加高效的编解码。
第三，在多Agent协作下，我们对延迟和吞吐有着很高的要求（特别是人机交互对表达延迟的敏感度，以及沉浸式交互对数据高吞吐量的要求），而当这些要求遇上复杂的网络环境（例如弱网状态），如何提供平滑的服务体验是一个全新的挑战。

3.数据形态与处理方式的延展，开拓更多的价值机会

一方面，数据形态正在从结构化向非结构化快速的延展。这为非结构化数据的加工，特别是提升内容与表达质量的清洗、多模态数据的融合处理、对数据内容理解挖掘以及专业审核上，带来了许多新的挑战。

另一方面，数据资产的加工服务正在从面向用户向面向机器与智能体延展。在面向Agent的语义表达，生成式人工智能下的编解码、渲染，以及多Agent网络数据传输等领域都提出了新的技术命题。

随着数据的形态以及服务的对象与方式不断丰富，必须要持续提升数据资产加工与服务的能力，让生产的数据通过加工和服务模式的革新，释放更高的增益价值。

03 数据应用新范式的挑战
我们再把目光转向消费与应用，在数智融合的时代下，可以看到数据的应用范式当下存在三个非常显著的挑战：

1.新搜索、新交互等创新场景下标量与向量数据的混合检索

第一，在新搜索、新交互等创新场景下，标量与向量数据的混合检索是一个非常关键的且具有极大用户价值的技术命题。有别于传统的搜索中的围绕关键词交互，在新搜索下，以自然语言、多模态数据为载体的交互将会极大的降低用户的使用门槛，提升交互效率。例如，我们可以很便捷的通过手机摄像头去捕捉并检索一瓶感兴趣的红酒。这瓶红酒的信息检索既可以以传统的内容理解加关键词检索方式完成，也可以直接通过向量化的方式进行相似性检索。

同时，对背景的捕捉也可以进一步丰富检索的场景，例如当背景是餐厅时，会显示酒的产地，历史，背后的故事等。如果背景是货架，在超市，就可以显示多款类似的红酒与电商网站作为选择。与此同时，新搜索的交互模式也可以让我们很容易的增加对标量的检索限定条件，例如不超过200元一瓶的红酒。

值得一提的是，在保证一定的准召率的条件下，标量与向量数据混合检索背后的存储成本与检索性能（例如延迟）是未来数据存储基础设施的关键技术竞争力之一。此外，在未来的多模态搜万物的模式中，我们需要将万物与文字、特征都建设在一个超高维的向量空间中，这样的向量化数据的索引构建在时间和资源上有很大开销，是十分具有技术挑战的难题。

与此同时，在新搜索新交互中响应用户的即时兴趣（instant interest）十分重要，这背后依赖的实时或者仅有分钟级延迟的近线数据流，如何与向量索引的构建高效融合在一起，也是未来数据基础设施要解决的技术难题。

我们相信，标量与向量数据的混合检索将会是未来新搜索新交互的常态，这是一个非常挑战但又非常具有用户价值的技术命题。

2.面向应用效果的不确定性：围绕数据的实验迭代原生工程体

在数智融合的新时代下，智能化的应用效果凸显了极大的不确定性。

过去的传统产品应用功能，是以「确定性」为主，每个功能被设计完成怎样的任务是非常明确的。而在智能化时代，应用的效果充满不确定性。我们并不清楚写作助手到底能写出一篇怎样好的命题作文，我们也并不能得到保证创意助手一定能创作出令我们满意的宣传动画。

在生成式人工智能应用中，其有意思之处在于不确定性，让任何回答都充满了无限的可能，尤其是当我们包容并且期待这种无限的可能时；然而其挑战之处也在于此，特别是在人们日常生活中需要确定性服务的时刻。当我们对智能助理提出要在星巴克上点一杯冰美式，我们十分确定并期望它能够唤起支付宝的星巴克小程序，在授权下快速的完成冰美式的下单任务。

不断提升智能化应用的确定性，十分依赖数据工作。我们判断，围绕数据的实验迭代原生的工程体系是未来支撑数据应用新范式的核心。

在这样的实验迭代原生工程体系中，我们需要在数据引入时做细致的评估工作：数据规模仅仅是其中一个视角，无论是数据的结构质量、内容质量还是表达质量，无论是可信等级还是教学性等级，无论是数据的语种构成还是知识领域分布，都需要进行全方位的充分的评估。

在这个体系中，我们也要具备综合的数据处理能力，从数据的选择、采样、混合配比，到存量与增量数据的更新，以及数据的版本化管理。在此基础上，我们需要构建一整套科学实验工程体系，从控制变量实验到双盲实验，从低参数到高参数的scaling law实验，从pre-train到post-train的不同阶段的实验，通过实验去评估数据质量划分的合理性以及验证何种特征的数据对模型性能和泛化能力的增益。

最后，价值关联的反馈在该体系中也至关重要。这既包含了资产探查反馈链路、实验反馈链路，也包含了模型推理应用的反馈链路，其反馈的类型也十分多样，既有实验结果与数据分析的反馈，也有模型评测和实际用户case的反馈。

我们相信，在数智融合的新时代，围绕数据的实验迭代原生工程体系是帮助智能化应用在需要时能够消弭不确定性的关键，也是未来数据应用的新范式之一。

3.面向数据生态：开放的数据价值发现与流通体系

在数智融合的新时代下，随着智能体协作网络的发展，智能化应用会步入一个开放的生态，相应的，数据体系也需要构建一个开放的生态。在这样一个数据生态下，开放的数据价值发现与流通体系十分的重要。

首先，我们需要能够支持多方数据的融合，并且能够全面看清融合的数据。当结构化与非结构化、各种模态的数据需要融合在一起，当各种相互关联的数据需要融合在一起，当相同或相似的数据需要融合在一起，当不同的甚至矛盾的数据需要融合在一起，而当这一切在数据规模量级呈指数级增长的情况下发生，技术挑战也随之而来。我们过去花了很多时间解决数据的去重问题，这只是其中一个小例子。

其次，在海量的数据集中，如何寻找到有价值的数据子集，对构建行业垂类的智能化应用十分重要。过去我们十分依赖专家经验，经常通过人工筛选的方式完成这样的工作，但是一方面，这显然没有办法支撑未来行业垂类智能化应用的规模化发展和迭代。另一方面，这也没有办法回答一个问题——“在一个庞大的融合数据湖中，我们到底有没有将数据的价值充分的释放？”我们认为，数据价值的主动发现是未来融合数据湖的一项关键能力。

同时数据要素的流通一定要提供安全合规的保障。这不是那么新鲜的话题了，如何保护用户数据的隐私安全，如何确保专数专用不扩散，以及实现在需要的时候我们的数据可算但不可见等等。这都是整个体系中关键的部分。相应的隐私数据保护、数据权限管控与血缘追踪、多方密态计算等技术能力是这样一个体系中的关键组成部分。

最后，我们需要支持对数据价值流通与应用效果的度量，以及在必要时进行价值的结算。这有助于整个数据生态的长期、健康、可持续发展。

展望：数智融合时代下的蚂蚁智能数据体系

我们刚才聊完以价值为中心的数据生产、加工服务方式的演进和应用范式的挑战，我们将在此分享过去两年里，蚂蚁数据在智能数据体系方面的一些工作。

在过去的两年里，我们一直努力在构建这样一个围绕融合数据湖的，底层基于全模态存储与计算引擎，上层面向丰富的业务应用场景，提供各式的数据驱动的智能化应用服务与能力，并取得了一些阶段性的进展。

在底层的全模态存储与计算引擎方面，我们从传统的KV存储、对象存储、文件存储持续拓展，构建了行列混存，以及面向新搜索新交互的向量数据库能力，并且为大模型训练打造了全模态缓存加速的新型存储技术产品；我们从传统的流批一体计算出发，深化了非结构化数据计算中的特征提取、可编排算子能力，在数智融合时代的多媒体数据技术领域积极布局，包括面向机器与智能体的编解码、端边云计算与渲染等。我们也在加速构建面向未来的混合检索与分析计算引擎。

在核心的融合数据湖里，我们相信结构化数据、半结构化数据与非结构化数据一定要能够充分有效的融合在一起。除了传统的数据管理与治理、端云/跨云的数据融合和隐私保护之外，我们认为统一元数据、支持三线一致和Single Source of Truth，以及特别针对非结构化多媒体数据的安全与可信能力是几大关键要素。

在上层的数据应用中，我们秉承着“围绕价值的数据驱动”理念。这其中包含了高价值数据的生产（包括数据引入、数据感知、数据标注、数据合成），也包含了全模态的数据研发和面向机器与智能体的新特征服务。这其中还包含了数据应用新范式中的数据价值发现、数据要素流通、数据评估、分析与实验工程体系等。我们也利用生成式人工智能技术构建了数据领域的众多智能体，进一步降低了数据洞察分析的门槛，极大的提升了数据洞察分析的效率。

回到开篇，在这样一个快速发展、日新月异的智能化的时代下，我们看见，数据技术领域也正在飞奔进入一个全新的历史阶段，一个充满着史无前例的挑战与机遇的阶段。我们相信，整个智能数据体系正在从过去的成本&效率中心向价值中心转变。

在未来，秉承蚂蚁集团的使命愿景，蚂蚁数据会坚持数据驱动，创造无限的价值，通过数智融合，普惠美好的生活。