元宇宙+大数据+ChatGPT- 未来来袭!
A Survey on Big Data Technologies and Their Applications to the Metaverse: Past, Current and Future
原文链接:https://doi.org/10.3390/math11010096
大数据技术的发展在各个领域得到了广泛的应用,已成为影响现代社会的关键因素之一,尤其是在虚拟现实环境中。本文全面调查了大数据技术的最新发展及其在虚拟现实世界中的应用,例如元宇宙、虚拟人类和数字孪生。本次调查的目的是探索几种前沿的大数据和虚拟人体建模技术,并提出大数据技术和元宇宙的未来趋势问题。这项调查调查了大数据技术在几个关键领域的应用,包括电子医疗、交通、商业和金融,以及快速增长的虚拟世界领域(即元宇宙)采用的主要技术。
1. 简介
在现代社会,数字应用已广泛应用于众多领域。这些应用程序可以生成巨大的数据,为数据分析、预测和决策提供丰富的资源。异构数据集的快速增长需要新的大数据技术来实现更高效的数据处理。以前的研究提供了有关大数据技术的各种评论和调查。本文回顾了大数据技术的最新发展及其在虚拟现实世界(例如元宇宙)中的应用。在大数据环境中,大量数据集被创建并快速传播,这会产生额外的计算开销。传统的数据处理技术面临着数据爆炸、数据种类增加、实时数据处理效率有限以及对更准确分析方法的需求不断增长的挑战。数据复杂性和数量的增长阻碍了大数据分析在现实世界中的应用。特别是,电子商务公司过分依赖在线数据收集和分析:因此,这些电子商务组织寻求促进业务和增加利润;因此,这些电子商务组织寻求促进业务和增加利润。然而,在将大数据技术应用于其业务流程的电子商务公司中,只有37%被证明是成功的。大数据环境下的信息过载增加了电子商务决策过程的复杂性和难度。迫切需要了解大数据技术的发展,以便将更有效的新技术部署到各种应用程序中。
近年来,虚拟现实应用备受关注。元宇宙是最新的虚拟现实概念之一:它是一个共享的三维虚拟平台,基于数字孪生和相关技术创建现实世界的镜像。大数据技术的使用将不可避免地成为包括元宇宙在内的各种虚拟现实世界中的重要问题。本研究的主要研究目标之一是研究元宇宙中使用的前沿大数据技术,以协助虚拟现实应用的发展。本文首先探讨了大数据和元宇宙各自的应用。
2. 大数据技术在不同领域的应用
“大数据”被定义为具有大容量、高速度、多样性和准确性等特征的数据源。这个定义被称为“大数据的4V”。在许多情况下,大数据技术意味着在动态环境中进行分析、存储和快速处理。Lin,Ye等系统地对医疗大数据应用进行了综述。审查总结了基于大数据技术开发的各种应用程序。本节系统综述了大数据技术在几个关键领域的应用。
2.1. 电子医疗领域的大数据技术
大数据的四个特征,即4Vs,对医疗数据处理系统有着巨大的影响。 已经开发了各种电子卫生系统来解决复杂和动态大数据环境中出现的问题。统计数据表明,目前全世界的数据量每年都将增加一倍以上。 全球医疗保健数据存储市场预计将从 2020 年的 30.8 亿美元增长到 2027 年的 61.2 亿美元 [6]。 由于越来越多地使用磁共振成像 (MRI)、计算机断层扫描 (CT) 扫描和不断增加的患者数量,医疗数据系统面临着数据量快速增长带来的挑战。 开发高效的大数据处理系统已成为电子卫生系统的关键要求。近年来,开发了用于个性化医疗的大数据驱动平台,以降低再入院率并加快实时响应 [7]。 临床数据仓库 (CDW) 数据库的广泛应用结合了在线分析处理和复杂的网络分析,以发现新的临床发现。 在[8]中,开发了一个大数据驱动的系统,以揭示和分析医院信息系统用户行为,以及基于行为分析的潜在特征。
该系统集成了提取、转换和加载(ETL)模块,可以并行处理数据并将其存储在大数据仓库中。 与传统的大数据系统一样,临床系统将结构化数据、半结构化数据和非结构化数据纳入其数据仓库。 大多数医疗卫生系统现在都有能力存储元数据、受保护的健康信息和异构电子健康数据。 现有的医疗保健系统提供基于云的混合存储解决方案。 图 1 显示了一个典型的健康数据仓库的架构:医疗数据有结构化和非结构化的来源,包括患者的病历、健康监测信号、基因组数据、MRI 和 CT 图像、医学分析报告和实验室检测结果。 在动态大数据环境中高效整合各种医疗数据源至关重要。 在 [9] 中,开发了以患者为中心的医疗保健应用程序 Health-CPS 以统一各种医疗数据源。 Health-CPS系统以统一的标准部署面向数据的服务和数据收集层,可以有效地整合各种医疗数据源:该系统表明,在医疗保健系统中实施云和大数据技术可以提高其系统性能[5 ,9,10]。
图 1. 基于 [6] 修改的典型电子健康数据仓库的架构。
从速度的角度来看,可穿戴和感官健康监测设备的广泛应用需要快速响应,以满足实时医疗数据处理的要求。 在这种情况下,医疗大数据的速度对于许多挽救生命的卫生系统至关重要。 在[11]中,实现了基于大量医疗传感器的可穿戴医疗应急响应系统。 在该系统中,基于大量可穿戴传感器进行实时临床监测、诊断和治疗[12],获取和分析患者的临床数据。
可穿戴和传感器技术的快速发展加速了实时多传感器可穿戴医疗设备在医疗领域的应用。 特别是可穿戴医疗设备简化了健康监测的流程,可以有效地监测、分析和诊断患者的日常健康状况。 在[13]中,开发了一种流量加速度测量模型,以评估用户在日常生活中长期测量过程中的姿势和运动:该模型已广泛应用于康复、心理生理学和心脏病学领域[5,13]。 近几十年来,多传感器医学模型一直专注于监测慢性疾病。 用于评估患者的传感器网络 (SNAP) 是为实时响应慢性病患者而开发的 [14]。 图 2 显示了医学 SNAP 模型的框架。 速度问题在这些多传感器可穿戴医疗设备中至关重要; 因此,已经开发出更复杂的实时医疗系统和设备,以满足大数据环境中的速度要求 [15,16,17,18,19]。
图 2. 基于 [14,20] 修改的医学 SNAP 模型框架。
准确性是最重要的特征之一,因为在许多情况下,医学数据来源可能不完整、有偏见且不准确; 因此,确保数据质量至关重要,以最大限度地减少大数据分析过程中的偏差、重复、异常、不一致和波动性[5,21]。 研究表明,成功的医疗保健系统的关键因素之一是实施有效的算法和数据分析技术,以处理大量异构数据,从而产生具有足够准确性的临床结果 [22,23,24] .
以往的研究工作非常注重提高医疗数据处理系统的准确性、可靠性和效率。 已经采用了几种方法来提高医疗数据源的准确性,包括数据清理、数据规范化和数据融合[25]。 已应用一种新的数据清理方法来替换缺失的文本,并提高临床系统中通过搜索查询检索到的相关病例的数量 [26]。 一些常规方法已用于医疗数据清洗,包括[26]:
(1) 替换缺失的类别,并标准化临床报告中的内容;
(2) 缩写替换,通过医学词典和本体;
(3) 使用自然语言处理 (NLP) 方法过滤和消除数据噪音、错误和不一致。
简而言之,准确性在医疗保健系统中无疑是重要的,而大数据技术的发展正在提高医疗保健系统的准确性。
2.2. 交通领域的大数据技术
现代社会快速发展的交通系统正在产生大量数据,包括交通轨迹数据、GPS数据、交通管理数据和交通网络数据。 由于大数据时代对高效交通系统的需求不断增加,已经开发了各种智能交通系统(ITS),以满足处理和分析不断增长的交通数据量的要求[27,28,29,30]。 与医疗行业一样,交通系统在动态大数据环境中面临着数量、速度、多样性和准确性的挑战。 ITS 应用程序专注于通过采用先进的大数据技术来解决大数据问题。 研究表明,大数据分析可以提高 ITS 数据处理能力、运营效率和安全水平 [29]。 图 3 显示了 ITS 中大数据分析框架的架构。
图 3. ITS 中的大数据分析框架,基于 [29] 修改。
主要的大数据分析技术在ITS应用中的应用如下: 监督学习方法:ITS 中使用的主要数据分析和机器学习方法包括回归、决策树、人工神经网络 (ANN) 和支持向量机 (SVM) [29](图 4)。 线性回归是最有效的分类方法之一,在 ITS 中得到广泛应用,用于交通路线分析和交通流量预测 [31,32,33]。 决策树方法已应用于 ITS 应用,例如交通事故检测、交通拥堵预测和事故严重程度预测 [34,35,36]。 在[29]中,具有核函数K(x,x')的SVM分类器可以导出支持向量αi:
图 4. 基于 [29] 修改的大数据平台在 ITS 应用中的使用。
其中用于计算样本 x 标签的决策函数 g(x) 为:
如果 x 是事件样本,则 g(x) = 1; 否则,g(x) = −1 [29]。无监督学习和基于本体的方法:ITS中采用的常规无监督学习方法是K-means,已应用于旅行时间预测、旅行路径规划等[29,37,38]。 基于本体的方法部署了可以有效关联数据语义关系的数据语义,这些语义关系广泛应用于 ITS 领域的语义交通数据处理 [39,40,41]。
深度学习和强化学习方法:强化学习在 ITS 中的应用是基于 ITS 数据 [42],通过探索和学习最优策略来减少计算开销。 强化学习在 ITS 的交通信号控制中是可行的,因为它结合了监督和非监督方法 [43,44]。 强化学习建模中的Q-learning是值迭代更新,列举如下: Q(s1,at)=Q(s1,at)+α(rt+1+γmaxAQ(St+1, at)−Q(St, at))
在 Hadoop、Hbase、Spark 等大数据平台的支持下,上述数据分析和机器学习方法在 ITS 领域得到了广泛应用[29,45]。最近,已经开发了几个面向 ITS 领域的大数据平台,以满足 ITS 中对更有效数据处理不断增长的需求。 [46] 中开发了一个大数据平台,具有多个引擎以支持异构流量数据分析。 其他几个数据处理平台和框架已应用于 ITS,例如 Godzilla [47]、K-Feed [48]、Sipresk [49] 和 ITS 大数据模拟平台 [50]。简而言之,大数据技术可以通过启用高效的数据处理和分析能力来使 ITS 应用受益,这些能力有助于现代 ITS 应用的解决方案,包括交通管理、运输基础设施、运输物流和智能连接 [29,51]。
2.3. 商业和金融领域的大数据技术
由于数字技术的快速发展,我们的社会正在进入数字时代。 在线活动在我们的日常生活中发挥着重要作用,不断产生大量数据。 这些数据源产生于各个领域,包括医疗保健、交通运输、制造、金融、商业和社会活动。 大数据技术的应用加速了各行各业的数字化转型进程,能够适应市场变化和数字经济的兴起。 没有数字平台的支持,大多数现代企业都无法生存 [52]。
数据分析在商业和金融领域的广泛应用提高了财务决策过程的效率。 金融和商业应用部署大数据技术来执行各种金融和商业分析,最终生成更准确和全面的决策模型[53,54,55]; 然而,数字应用增加了网络攻击和在线欺诈的金融风险,因为个人数据正迅速成为数字经济中的新货币 [56,57]。 技术创新是金融市场追求高额利润最重要的驱动力之一——尤其是数字技术,在金融领域应用广泛,对各类金融应用产生巨大影响[54,58,59,60,61 ].
现代金融系统收集可访问的透明数据,以改进金融数据分析和风险控制,特别是在大数据技术的应用方面。 大数据技术可以提高企业和个人财务系统的性能,因为它们基于大数据分析。 云计算技术在金融机构的应用提高了数据安全性,降低了大数据管理和分析的成本,有利于大数据技术在商业和金融领域的部署:例如,亚马逊网络服务(AWS)提供了一个 可扩展、经济高效的云平台,适用于全球各种业务,包括金融和商业分析。 图 5 显示了金融服务中的大数据分析。
图 5. 金融服务大数据分析框架,基于 [54,58,62] 修改。
大数据技术在几乎所有领域的众多在线商业活动中发挥着至关重要的作用:例如,Netflix应用大数据技术分析客户的观看行为,从而为客户提供更准确的推荐; 移动和基于汽车的 GPS 应用程序具有基于位置的服务,例如谷歌地图,它严重依赖大数据技术来快速响应客户服务 [56,63,64]。 商业公司利用云计算来促进大数据技术的应用,以提高客户满意度[65]。 近年来,传统的企业对消费者 (B2C) 公司和组织已将其业务扩展到企业对企业 (B2B) 营销领域 [63]。 因此,在大型商业数据分析中部署了更复杂的大数据技术。
在线业务、金融和社会活动的快速增长导致海量数据的积累,这通过部署适当的大数据技术促进了数据驱动的业务创新[66]。 亚马逊、谷歌、eBay、TikTok、Twitter 等以信息技术为基础的公司不断存储和分析客户服务数据,包括客户和产品详细信息、交易时间和其他与服务相关的数据。 这些数据源为公司提供了有效决策和高效战略业务计划的基础,以提高他们的客户服务绩效和业务创新 [54,67,68]。 研究表明,大数据技术对于具有高科技新颖性或激进创新的商业项目而言正变得至关重要,尤其是在大数据环境中,因为许多研究人员认为客户是信息和知识的来源 [69,70]。 在 [70] 中,确定了组织整合大数据技术以加速其产品创新过程的四个潜在关键成功因素 [71]。
对已经应用于商业和金融领域的大数据技术进行了全面的梳理,包括用于商业/数据分析的主要方法、技术和模型,如表1所示。一些主要的大数据技术 根据其相关业务和财务活动,以及实施大数据技术的实际行业应用或平台,如表 1 所示。 我们的研究发现,大数据技术已应用于几乎所有商业和金融领域的主要活动,如表 1 所[72,73,74,75,76,77, 78, 79]。
表 1. 应用于商业和金融领域的大数据技术 [72,73,74,75,76,77,78,79]。
3. 大数据技术趋势
大数据技术现在对组织和公司的成功至关重要。 无数的大数据技术已经被开发出来并应用到我们日常生活的方方面面。 亚马逊、eBay、阿里巴巴、沃尔玛等在线购物公司利用先进的数据挖掘方法,为顾客提供个性化的购物服务和推荐。 Fedex、DHL、UPS、CSX Transportation 等物流运输公司纷纷部署基于传感器的大数据技术和机器学习方法,以提高“最后一英里交付”的效率。
大数据是一种前景非常广阔的技术[80]:它涵盖了各个领域和领域,包括基础设施、分析、应用程序、数据资源、数据源、API 和开源。 根据[80]中的大数据技术统计,就学术引用而言,最有影响力的大数据技术已被卫生部门采用,特别是在癌症分类方面[80]。 在行业应用方面,网络购物和电子商务是对大数据技术依赖性很强的领域。
本文将大数据技术分为四类:大数据采集与预处理; 大数据存储和基础设施; 大数据分析; 以及大数据隐私和安全。 表 2 概述了当前主要的大数据技术及其趋势。 未来的大数据技术将着重于提供先进的解决方案,以确保能够处理更多样化的数据源,处理异构数据存储,提供实时分析解决方案,更有效地保护用户数据的安全和隐私。
表 2.当前主要大数据技术的概述。
张量网络被认为是大数据存储未来趋势的有效解决方案[108]。 [109] 中描述的 Tensor Train (TT) 分解可以以简单的非递归形式执行。 一个 d 阶张量被定义为 TT 格式,如果它满足以下格式 [108]:
A(i1,i2,⋯,id)=A1(i1)A2(i2)⋯Ad(id) (4)
其中A(k)(ik)∈Rrk−1×rk,r0=rd=1, A(k)(ik)称为核心张量。 TT 格式基于低阶近似,通过辅助展开矩阵的奇异值分解 [108]。各种研究都提出了有效的数据分割方法 [74,93]。 最近的一项研究表明,大数据存储的未来趋势集中在将非常大的数据集转换为更小的片段而不丢失信息 [74]。 采用正态分布近似(NDA)方法对大数据进行快速切分,以最小的数据信息损失进行切分; 但是,NDA 或泊松分布近似 (PDA) 方法只能处理一维数据源。 未来的趋势将集中在考虑协方差的高维数据集上[94],定义一个 f ([x1, x2…xi]) 函数,来判断子数据集的均值与原始数据集的均值的接近程度。 f函数的表达式为:
([x1, x2…xi])=(X1−x1)2+(X2−x2)2+…+(Xi−xi)2
(5) 其中 i 是数据集维度的大小,[x1, x2…xi] 是子数据集的均值,[X1, X2…Xi] 是原始数据集的均值。 这个过程涉及计算原始数据集A的协方差矩阵ΣA(n×n)和数据子集B的协方差矩阵ΣB(n×n)。一个正定矩阵Σ可以分解为Σ=UTΛU, 其中 U 是上三角矩阵,Λ 是对角矩阵,其中对角线元素是非负的 [94]:
∑=UTΛU=[UTΛ12][Λ12U]=[Λ12U]T[Λ12U] (6)
因此,矩阵 Σ = CTC,其中 C = Λ1/2U [94]。
优化的引导算法可能会影响大数据存储的未来趋势 [89]。 自举权重算法可用于估计平滑和非平滑参数的方差 [89]。 自举权重定义为:
w∗ik={1+(n′n−1)1/2(nn∗in′−1)}π−1iπ−1k|i (7)
其中 n 是初级样本单元 (psu) 的样本量,n*i 表示在引导样本中选择第 i 个 psu 的次数; 然后使用用于获得原始点估计器的公式计算 θ∗^,其中原始权重替换为引导权重 w∗ik [94]。 当获得所有 θ∗^ 时,可以应用自举方差估计器 var∗(θ∗^)。 var*(θ*^) 的蒙特卡洛近似被改编为:
var∗^=1B−1∑Bb−1(θ∗b^−θ∗¯¯¯^) (8)
在未来的大数据环境中,非结构化数据源将呈指数级增长,高效、实时的数据存储解决方案的趋势将至关重要。 快速增长的虚拟现实 (VR)、增强现实 (AR)、扩展现实 (XR) 和 Metaverse 应用正成为大数据模型日益重要的问题。 研究表明,VR 和 Metaverse 将在不久的将来取代当前基于 Web 的在线业务,成为产生大数据量的主要领域 [101,110, 111, 112,113]。 下一节将探讨 Metaverse 和数字人的当前发展。
4. 元界相关技术及应用
[114] 中 Metaverse 的定义是一个虚拟空间,用户可以在其中通过 3D 数字对象和虚拟化身以一种模仿现实世界的复杂方式与他人互动,并与他们的环境互动,持有使用人工智能开发的东西 技巧; 因此,创建数字人对于元界和其他 AR/VR/XR 应用程序的开发至关重要。
4.1. 数字人体重建
由于对包括 Metaverse 在内的虚拟现实应用程序的需求不断增长,如何创建数字人类最近成为一个研究较多的主题。 数学进步的核心驱动力之一是发现对象、模式以及最终它们的公式表示; 在这种进步的过程中,科学家们往往需要利用各种工具和数据来帮助他们培养想法、提出猜想,并在可能的情况下最终通过实验和证据来证明/反驳。 毫无疑问,计算方法的演变不仅改变了科学家进行研究的方式,而且加速了科学研究的生命周期,对人们的日常生活产生了深远的影响——例如,包括早期的手 高斯使用的计算素数表(这导致了素数定理)[114],受素数理论启发的 RSA 公钥算法 [115],以及我们的现代区块链基础设施。
计算方法的引入让科学家们了解了以前无法理解的问题; 然而,虽然以前的计算方法在某些科学问题或领域中被证明是有效的,但它们并不容易推广到其他领域。 大数据技术,尤其是近年来兴起的深度学习领域,提供了一系列能够有效检测数据模式的技术,并越来越多地证明了它们在科学学科中的实用性。 以元界虚拟人重建的具体案例为例,说明深度学习如何在实际场景中解决数学问题。
虚拟人体重建是元界各种应用中的基本任务之一:它旨在利用感官数据恢复人体的三维几何和外观,实现精确的逼真重建,并最终生成可移植到各种应用程序的紧凑型 3D 表示。 的设备。 这个问题涉及许多需要复杂工程的实际方面; 然而,其核心挑战在于深度学习建模和数学优化,如图 6 所示。
图 6. 基于回归和基于优化的范例的混合方法(由 Kolotouros 等人提供 [116]):将迭代优化例程嵌入到神经网络训练循环中,从而形成自我改进循环。 更好的拟合有助于网络更好地训练,而来自网络的更好的初始估计有助于优化例程收敛到更好的拟合。
已应用各种技术在 Metaverse 中重建人体模型。 许多研究从简单的基于图像的二维特征检测开始,例如关键点 [117]、轮廓 [118] 和肢体片段 [119]。 似乎简单的动作可以用二维的内容表现得比较清晰; 然而,越来越明显的是,在实际环境中经常发生的复杂人类行为不符合二维模型强加的简单假设,需要具有更细粒度的更具描述性的模型; 因此,更多的研究 [120,121,122] 转向探索更复杂的三维人体姿势建模。 最近,研究人员注意到直接与世界互动的身体形状、接触、手势和表情更容易测量和评估; 因此,研究人员的重点已转向人体的三维网格恢复 [123,124]。 然后通过面部和手部支撑进一步扩展人体建模 [125,126,127,128]。 同时,类似的技术也促进了下游任务,例如人体重建 [129,130,131]、体绘制 [132]、虚拟试穿 [133]、计算机辅助系统 [134] 以及更多元宇宙应用。 处理虚拟人重建有两种常见的范式:基于优化的范式(在第 4.3 节中描述)和基于回归的范式(在第 4.4 节中描述)。尽管这两种范式可能具有不同的优点/缺点,并且针对不同的方面,但这两种范式可以共享相似的人体建模技术。 图 7 显示了一种将两种范例集成到一个连贯框架中的有趣的可能方式。 下一节将回顾人体建模方面的现有方法。
4.2. 人体建模回顾
早期的人体建模始于对铰接几何基元的研究,包括线段 [135]、圆柱体 [136]、平面矩形 [137] 和椭圆体 [138]。 随着三维全身扫描仪的普及,可以准确记录更详细的体表测量数据,例如 CAESAR(美国和欧洲民用人体测量资源)[139] 数据集。 大量身体扫描数据的可用性产生了一个强大的表示:统计身体模型,它将身体变形分解为身份相关和姿势相关的组件。 在统计人体模型中,SCAPE [140]、SMPL [141]、SMPL-X [126]、SMPL+H [142]、3DMM [143] 和 STAR [144] 是流行的模型,它们不仅能够有效地 对形状和姿态变形进行建模,但也与现有的图形渲染引擎高度兼容,受益于显式网格模型。 这一系列显式方法首先通过身体扫描的主成分分析来学习形状变形,然后将它们与骨骼姿势驱动的变形(传统骨骼动画中所谓的线性混合蒙皮)相结合,以构建形状和姿势参数化人体 身体模型。 尽管显式方法很受欢迎,但它们仍然有其局限性:首先,全局混合形状可能会捕获虚假的远程相关性 [144],从而导致非局部变形伪影; 其次,身体形状和姿势相关的形状变形之间的相关性可能会被忽略; 此外,由于主成分分析的线性特性,可能很难再现身体软组织的高度非线性变形。
为了克服显式方法的局限性,而不是将人体显式定义为网格顶点和边或其他元素,隐式方法试图将表面定义为连续函数的水平集。 由于这些连续的特性,这种隐式表示有更好的机会被优雅地优化并与深度学习框架集成:它在空间域上是连续的,因此理论上具有无限分辨率,并且它可以轻松处理高度非线性变形,甚至 拓扑变化,这在显式方法中是不可能的。 研究 [145,146] 估计隐式表面函数,方法是将图像像素与拍摄对象的全局三维形状或纹理对齐,然后使用专用的多级网络来细化生成的几何形状。 隐式方法的灵活性使其能够轻松处理复杂的表面和拓扑变化,但有一个缺点,即拓扑上不同的人类表征可以跨时间存在:换句话说,隐式人类表征可能在拓扑上不及时一致。
4.3. 基于优化的范式
在此范例中,通过最小化以迭代方式使模型与观察结果相符的目标函数,人体模型得到了显式优化。 目标函数通常由两部分组成:(1)数据项是提取的观察特征与变换后的人体特征之间对齐的度量; (2) 添加了正则化项,以约束保持物理上合理的身体模型的收敛性。 在早期的工作中,轮廓特征在将身体模型拟合到图像中起着至关重要的作用,因为它被用来惩罚非重叠区域中的像素 [147,148]。
随着深度学习的出现,许多研究利用它来校准优化初始条件。 SMPLify [123] 采用现成的神经网络 [149] 检测二维关键点,然后迭代拟合 SMPL 模型,检测无约束图像的关键点。 虽然 SMPLify 产生了相对良好对齐的结果,但稀疏关键点不能为体形优化提供足够的约束。 为了改善几何细节,[150,151,152] 结合关键点、轮廓和零件段,进一步约束优化过程。 此外,[153,154] 已经表明,深度学习技术可以从训练数据中学习局部景观和适当的优化方向,然后用它们来指导基于梯度的优化过程:这样,传统的问题无关优化方案可以被赋予 具有自适应学习特定问题收敛方案的能力。 [155,156]进行基于图像的关键点回归,得到三维人体关键点,然后根据关键点和骨骼结构求解逆运动学,从而计算出准确的关节旋转,最终估计参数 一个SMPL模型。
虽然基于优化的范式可以在高质量数据可用时忠实地重建人体,但在数据稀缺和有用信息隐藏的情况下表现不佳; 此外,由于基于优化的范式本质上试图解决高维空间中复杂的非凸优化问题,其结果容易受到初始化的影响,并且容易陷入虚假的局部最小值。
4.4. 基于回归的范式
或者,基于回归的范式利用神经网络强大的学习和逼近能力,直接从感官数据中恢复模型参数。 为了获得更好的性能,研究人员探索了各种各样的网络架构和回归目标——例如,[125] 是将 SMPL 模型整合到端到端网络架构中的开创性工作之一,该架构最大限度地减少了之间的重投影误差 手动注释和估计关键点。 [124] 提出了一种端到端的对抗性学习框架,它使用鉴别器来监督训练过程,以排除人体测量学上不可信或自相交的身体结构。 [157] 提出了一个自上而下的框架,以连贯的方式同时回归多人的 SMPL 参数,其中深度排序是一致的,并且重建的人之间没有发生相互渗透。 [158] 没有回归 SMPL 参数,而是选择使用图卷积网络直接回归网格顶点,从而允许模板网格结构在网络中显式编码,轻松利用网格空间局部性。 受[124]的启发,VIBE [159]更进一步,从视频中估计动态运动序列。 通过用时间生成网络替换回归网络,并将三维监督数据集更改为运动捕捉数据集,AMASS [160],VIBE 为具有时间信息的对抗性学习框架提供支持,从而实现运动序列估计作为一个整体。
为了利用富有表现力的人体模型和配对数据,[127,161,162] 采用了分而治之的策略,将人体重建问题分解为特定部位的估计子问题,其中身体、手部和面部估计是使用各自的特定部位进行的 楷模。 最终的表达模型是通过将子问题的各个结果组装到相应的身体模板层中而获得的。 ExPose [127] 直接回归 SMPL-X 格式的手部、面部和身体参数,并利用身体驱动的注意力来定位面部和手部区域以进行细化,使用从现有的面部和手部数据集中学习的特定部位知识 . [163] 引入了一种实时方法,通过利用身体和手之间的相关性,以具有竞争力的准确性捕捉身体、手和面部。 Pose2Pose [164] 提取特定于关节的局部和全局特征,以训练图卷积神经网络,并从中回归身体/手关节旋转。 PIXIE [161] 首先根据特定部位的置信度融合了来自身体、面部和手部专家的特征,然后将这些特征输入特定部位的网络,以进行稳健回归。
4.5. AR/VR/XR 平台和元宇宙中的技术:未来趋势
在我们看来,AR/VR/XR应用无疑会在不久的将来成为最终的客户服务平台。 换句话说,AR/VR/XR应用如果不彻底消灭目前的移动端和电脑端,至少会成为主导平台。 因此,虚拟世界很快就会出现大数据浪潮。 元界由于近几年的快速增长,很可能成为面临数据激增挑战的前端平台。 下图是我们最近开发的基于VR的购物平台。
作者在进行用户推荐和数据分析时,观察到元界会出现两种极端情况:(1)冷启动问题。 这种情况经常发生在数据分析的数据太少时,由于VR平台对用户来说是新的,并且没有产生和积累用于分析的信息,这是大数据环境中常见的情况,当新平台出现时 为用户发布; (2)虚拟数据爆炸问题。 当元界或VR平台产生过多的数据,包括用户交互数据、可穿戴传感器数据、眼球追踪数据、位置轨迹数据、脑电图数据和业务交易数据时,就会出现这种情况。 图 8 显示了 Metaverse 的数据源及其架构 [165],这表明 Metaverse 由来自物理、社会和数字世界的各种数据源组成。
图 8. 基于 [165] 修改的综合社会、物理和数字世界的元宇宙架构。 社会世界主要由人类社区组成。
已经提出了几种方法来解决上述问题。 在 [166] 中,开发了基于位置的 VR 在线购物推荐系统,以解决 VR 平台中的冷启动问题。 在这样的系统中,冷启动问题是通过分析新用户在虚拟世界中的交互和行为来解决的。 例如,基于位置的VR在线购物系统获取新用户在虚拟世界中的轨迹,并根据他们的动作进行分析,生成用户推荐,如图9所示。
图 9. VR 购物推荐的基于位置的分析(绿线是用户轨迹)。
未来元界解决冷启动问题的趋势将进一步利用用户的行为和情感数据,包括用户眼球追踪数据、用户运动轨迹、可穿戴用户设备数据和用户情感数据。 尤其是人脑数据分析,将有可能成为元界等VR平台用户分析的必备技术。
冷启动问题在VR平台中并不是一个长期存在的问题,因为当数据积累到一定数量时,它可以自动解决,而虚拟数据爆炸问题是对元界这样的VR平台的一个长期挑战。 由于其本质上的数字化,Metaverse 中广泛的数据源将呈指数级增长。 一些研究建议采用数据即服务 (DaaS) 框架 [91],作为数字世界(包括元宇宙)中数据爆炸问题的解决方案。 已经提出了其他几种解决方案,包括张量网络和情感分析来解决这个问题。 未来元界和其他VR平台的技术发展趋势可以总结如下:
(1) 数字人重建正在成为元界和其他VR平台的重要领域:这是可以加速元界发展的核心技术,从而真正实现虚拟世界中的人机交互,如4.1节所述 4.2 和第 4.3 节;
(2) 与数字孪生相关的方法是创建可以模仿物理世界的数字世界的基础。 数字孪生被定义为物理和虚拟环境之间任意方向的数据轻松集成 [167]。 虚拟现实开发工具,如虚幻引擎、Unity、3DS Max & Maya、SketchUp 等,将成为未来几十年数字孪生模型开发者的主要工具包。 数字孪生的未来趋势将集中在以下方面: 实现数字孪生与现实世界之间的一致性关系; 数字世界自治、运行时自适应和自我管理; 以及整合与合作,以实现共同目标或提供服务[168]。 基于 Microsoft Kinect 传感器和 Oculus VR 耳机,已经开发了许多数字孪生应用程序。
(3) 脑机接口(BCI)技术将成为元宇宙和虚拟现实平台非常重要的领域。 以往的研究表明,非侵入式 BCI 技术因其潜在风险极小和时间精确性等优点,近年来在各个领域得到了广泛应用 [169]。 图 10 显示了高性能 EEG BCI 方法(左)和 EEG BCI 实验(右)[169,170]。
图 10. 分段脑电图时间窗口(左),来源:[169]; 脑电图实验(右),来源:[170]。
采用基于 NDA/PDA 的方法,以提高 EEG 数据分析效率,以适应 Metaverse 和 VR 平台中的实时交互 [74]。 NDA方法的定义如下:若S[a,b]⊆A[1,k],若x∈[a,b]满足:
f(A(x),μ,σ)=1σΦ(A(x)−μσ)−→−−a≤x≤ba≠bS[a,b]⊆ND (9)
Φ(S)≥(1−mr)×1σ2π−−√∫baexp(−c22)dx (10)
其中mr为调整参数,S[a,b]为NDA集。 基于 ND 的方法使用 ksdensity 函数导出数据值,以生成概率分布 [170]。 PDA 方法的定义如下:PDA 模型取计算出的 σ 和 λ 值之一作为 λ × t,如下式 11 和 12 所示。假设原始数据集有 σ,则 Mean (λ ) 是事件率。 如果 Mean (λ) − λ = ∆,则 λ × t 位于 Mean (λ) 和 λ 之间。 用 |y − λ × t| = a, a1/2+a = Δ 满足。
P(固定时间内的k个事件)=e−λλkk! (11)
P(N(t)=n)=(λt)ne−λtn! (12)
其中N(t)为t时间窗内的样本数据。 Gamma函数在PDA方法中用于处理复数,在[171]下面的(13)中表示:
Γ(z)=∫∞0xz−1e−xdx (13)
∆ 参数用于调节样本数据集的大小,以获得最接近的 λ 和 σ 值。 PDA 中的 Δ 参数与它在 NDA 方法中的作用相同。 PDA 模型采用 PDA 基准点选择方法 [169,170,171]。
(1) 区块链技术是适用于数字世界(例如元界)的高效且安全的解决方案。 在区块链模型中,可以通过加密哈希操作 [172] 将新交易链接到先前的交易,从而验证新交易并将其添加到现有记录(即块)中。 每个块都包含前一个块的加密哈希、时间戳和交易数据 [173]。 区块链技术的主要特点是安全、去中心化、数字化、协作和不可篡改:这些特点使区块链技术成为元界等数字虚拟世界的完美解决方案。 目前,最成功的区块链安全技术采用基于公钥基础设施 (PKI) 的区块链方法 [174]。 该领域的研究人员已经开始寻找更有效的解决方案。 未来元界区块链技术发展的趋势将集中在更加自主、智能和可扩展的模型上,例如基于智能代理的区块链[175]、自主权身份(SSI)区块链[176]、不可替代的代币 (NFT)[177] 和基于生物身份的区块链。
(2) 人工智能 (AI) 是一门对我们现代世界几乎所有领域都必不可少的学科,尤其是对于未来的虚拟世界,例如 Metaverse。 人工智能可以加速分析效率,增强安全性和隐私性,提高互操作性,并为人机交互和协作提供更好的解决方案。 自然语言处理 (NLP)、情感分析和脑信息学技术在数字世界中的应用越来越多,正在刺激人工智能在这些领域的发展。 人工智能在图像识别、语音识别、人机交互、直觉等领域的成功应用案例,揭示了人工智能在元界等虚拟世界的广阔前景。 最近的一项调查表明,大多数研究都集中在探索 Edge AI 架构与 Metaverse 之间的有效集成和协作 [178]。
5. 讨论
元界等虚拟平台和大数据技术正在成为我们日常生活的一部分。 近年来,这两种不同但密切相关的技术发展加速。 在本节中,作者想通过回顾 Metaverse 的编年史来讨论大数据在 Metaverse 发展中的作用。 本节提供本次调查中使用的文献综述方法。
5.1. Metaverse 编年史和大数据在 Metaverse 中的作用
图 11 展示了 Metaverse 及其相关技术(包括大数据)是如何演变和发展的[178]。
图 11. Metaverse 及其相关技术的编年史,基于 [178] 进行了修改。
元界和其他虚拟平台中的数据源呈指数级增长; 因此,大数据技术对于元界来说至关重要,如果要有效地管理其数字世界,并为用户提供实时分析服务。 大数据技术是为用户呈现虚拟平台(例如 Metaverse)的基础工具。 换句话说,大数据是元界的基本组成部分; 元界加速大数据技术的发展; 然而,大数据不仅在虚拟世界中至关重要——它也是我们真实物理世界的重要组成部分,这在各个领域都得到了证明,包括第 1 节中指出的领域。图 12 显示了大数据与 Metaverse 之间的关系 .
图 12. 大数据在物理世界和虚拟世界中都扮演着重要的角色。 Metaverse 是一个与真实物理世界平行的虚拟世界:两者有时通过增强现实和数字孪生连接起来。
Metaverse的当前定义因不同的研究而有所不同; 然而,许多研究人员有一个共同的观点,即元宇宙正在模仿我们的物理世界。 在本次调查中,作者认为未来的虚拟世界,包括元宇宙,将发展成为与我们的物理世界完全不同的世界:这些虚拟世界将超越我们当前的社会结构和文明生活。 表3展示了元界和大数据在几个关键领域的应用实例。
【略过研究方法。。。。】
6。结论
本次调查对大数据技术和虚拟平台(即元界)的发展进行了全面的调查。 毫无疑问,元界和大数据技术将成为未来几十年最具影响力的领域。 大数据是元界的重要组成部分,在平行的现实世界中也起着至关重要的作用:这两个领域最终会融合到虚拟世界中,共同发展。
本研究调查将大数据技术分为四类:大数据采集和预处理; 大数据存储和数据基础设施; 大数据分析; 以及大数据隐私和安全。 作者进一步研究了每个类别的未来趋势,并获得了以下发现:(1)未来大数据采集和预处理技术将致力于高效处理更多非结构化、高维数据。 在各种数据采集方法中,区块链、数据结构和NLP管道展示了它们在未来大数据采集方面的潜力; (2) 大数据存储方法的未来趋势将集中在更具弹性和基于云的解决方案上。 Fog-to-Hybrid和multicloud、Data as a Service模型、区块链数据存储、高维数据分割和张量网络是未来大数据存储的主要趋势; (3) 大数据分析的趋势将集中在自然语言处理、情感分析、实时分析模型和虚拟现实/Metaverse 分析模型,以及以数据为中心的人工智能分析; (4) 大数据隐私安全的趋势将主要集中在云、区块链相关领域,如云安全(中心化云服务与雾计算的结合)、区块链保障数据隐私和安全。
近年来,Metaverse 和其他虚拟平台发展迅速。 普华永道预测,到 2030 年,VR 和 AR 平台将使全球 GDP 增加 1.5 万亿美元 [197]。 迄今为止,Metaverse 的应用包括在线购物、虚拟社交媒体、视频游戏、虚拟旅游以及在线博物馆和艺术 [111,112,198]。 许多大型科技公司已经宣布计划推出他们的 Metaverse 产品,例如 Facebook Horizon、Nvidia Omniverse 和 Amazon Metaverse。 未来元界和其他VR平台的技术发展趋势可以归纳为五个主要领域:数字人; 数字双胞胎; 脑机接口 (BCI)、区块链和人工智能。 值得注意的是,近年来,脑机接口技术对 Metaverse 的开发变得越来越重要,因为 BCI 提供的沉浸式交互可以增强用户体验 [196,199,200,201,202]。
总之,我们的社会正在变得更加数字化和虚拟化。 一个虚拟世界,例如元宇宙,可以给我们的社会带来一些压倒性的好处,包括便利、节能、时间效率、创造力和环保。 大数据技术作为元界的基础组成部分,提供了解决数字世界中数据爆炸和分析瓶颈问题的方法和算法。
Metaverse目前正在模仿我们的物理现实世界作为一个平行的虚拟世界; 然而,Metaverse 将变得与我们的物理世界截然不同。 作者认为,在大数据和人工智能技术的帮助下,虚拟世界将在许多方面变得比我们的物理世界更先进。 大数据无疑是虚拟世界最重要的领域之一,比如元界,因为虚拟世界是数字化的数据,会加速数据的爆炸; 因此,分别了解大数据和元宇宙的发展,然后找出它们可以相互促进的共同领域是至关重要的,如图 12 所示。未来的研究将进一步确定研究问题 Metaverse 和其他虚拟世界,在处理完整虚拟或混合虚拟环境中的大数据问题方面。