智源大会-2023-笔记-四-

智源大会 2023 笔记（四）

具身智能与强化学习论坛 - P1 - 智源社区 - BV1Jo4y1772U

嗯欢迎各位来到我们今天这个北京智源大会，聚深智能与强化学习论坛，我是啊，北京大学助理教授王鹤啊，那么首先呢由我来介绍一下，咱们今天论坛的一个背景啊，那么今天为什么我们要在这个呃，2023智源大会上。

畅谈巨深智能与强化学习呢，实际上我们看到在最近的一段时间，这个chat gt引爆了这个呃语言大模型，那么到gb t4 引爆了多模态的，有这个图片和文字的大模型，我们的这个智能体。

我们的大模型不断的在丰富他的能力，从能流畅的跟人类交流，到理解图片中的人这个世界，并且呢同时这个与文字进行交流，那么我们再问下一步大模型，我们的智能体应该赋予它什么样的能力，那么今年2023年。

应该说是对于巨深智能值得铭记的1年，那么谷歌呢是发布了这个啊in这个palm e啊，第一个embodied multi model的large model啊，让我们看到了智能体。

从这个预言到图片到这个采取行动，在物理的世界中，在一个这个我们具有的物理身体的这样的一个，机器人的身体当中，能够跟世界智能的交互，那么这是从模型层面的。

那么我们看到这个呃这个从google出来的创业公司，everyday roberts，他们的这个这样的一个移动机器人，搭载了大模型，可以在谷歌的kitchen里头去这个拿你想拿的是东西。

通过这个自然语言跟人类沟通，并且呢在他们的大楼里进行这个垃圾回收，那么特斯拉的这个呃人形机器人，也再次引爆了这个呃，人们对巨深智能和未来通用机器人的畅想，所以在今天呢我们这个呃欢聚一堂。

在这里头呢来探讨，就是从啊今天的大模型，到未来的这个通用人工智能体，那么我们的具身智能与强化学习，在这里头将扮演一个什么样的角色，那么今天呢，我们非常荣幸地请到了海内外顶尖的学者，共聚一堂。

有来自美国这个u c s d的助理教授苏浩老师，有来自北京大学的助理教授卢宗清老师，有来自清华大学的副教授孙亚楠老师，还有来自中科院计算所的研究员蒋树强老师，那么我们就这个呃。

快速进入我们下面的第一个报告啊，这个呃欢迎来自u c s d的助理教授苏浩老师，给我们带来第一个报告，modeling the third physical world for embodia i。

嗯苏浩老师是呃，美国圣迭戈大啊，美国加州圣迭戈分校的，计算机科学与工程系的助理教授，现任ucsd巨深智能实验室主任，他致力于建模理解，和与物理世界进行交互的算法研究，他在计算机视觉，图形学。

机机器学习和机器人领域的顶会和顶刊，苏浩在斯坦福大学和北京航空航天大学，分别获得计算机与应用数学博士学位，曾获得美国计算机图形学会最佳博士论文提名，截止到2023年，他的论文被引用将近8万次。

那么他也参与了一系列知名工作啊，image net，并主导了shapnepoor，net等重要的三维深度学习的关键性工作，那么近3年，它专注于剧深智能为核心的，下一代人工智能体系的研发。

让我们以热烈的掌声，欢迎苏老师给我们带来报告，比其他非常荣幸能够来到这个讲台上，跟大家积极一堂呢，亲身的去讨论这个问题，那么我这个报告呢会用中文进行，但是我主要的教学工作都是用英文进行的。

所以当我用中文讲的时候，有时候可能不太准确或者不太流利，首先呢啊希望大家能够原谅，我的题目是model three d physical world for embodied intelligence。

对吧，这里的一个关键词就是所谓的embodied intelligence，或者拒生智能，最深智能到底是什么呢，这个词近年以来开始变得很流行，但是也许不是每一个老师的同学，都清楚他的这个内涵。

事实上在整个的研究界中，这个词的内涵也没有完全的被对齐，但是呢今天我想跟大家分享一下，我对所谓具身智能的这个定义的理解，以及分享一下我们组的，在这个问题上的一些前沿性的工作，好啊。

为了更好的来讲我自己对这个事理解，我会首先说一点，那么我自身的研究经历啊，帮助大家更容易地理解这个这个这个认知，发展的进程，所以巨神智能最近被引进来呢，主要是为了跟传统的互联网智能的啊，进行一次区分。

我也是在互联网智能时代进入了人工智能研究，那么09年的时候呢，我有幸参与了这个作为主要的贡献人，参与了imagenet的这个呃创建在12年呢，见证了alex net，在这个image net上。

点爆了深度学习的这么一个啊时代，那么在图片理解的过程中呢，我开始认识到物体关系的重要性，那物体的关系实际上是在三维的物理世界中的，对吧，所以呢我就对三维的视觉产生了很大的兴趣，大约在14年左右。

开始考虑如何去铺垫三维视觉的工作，在15年左右呢，我们当时做了shape ne，后来又基于shift net做了算法point net，但是时间轴来到2017年左右的时候。

也差不多是我的博士完成的时候呢，有一个点就非常值得思考了，这个点就是以当时的这个技术发展来看，那么对于人类定义的概念，靠足够的数据，足够多的算力，足够大的网络，看起来呢。

这个它的核心技术问题已经基本上清晰了，那么技术方案也清晰了，是不是这样，人工智能或者计算机视觉，这样的问题就要被解决了呢，在我开始当教授之后呢，就非常多的去思考这个问题。

那么这事呢应该说答案可能不是这样的，我们可以说在互联网智能时代，最大的问题就是对于人类已经定义好的概念，如何去识别，如何去理解，但是我们想想这个例子嗯，大家可能很多的同学。

尤其是男生都有踢足球的这样一种体会对吧，当你踢足球的时候，你知道你可以让这个球呢，在空中走出一个弧线来，比如香蕉球，对不对，怎么踢香蕉球呢，你要用脚的一个部分打球的一个位置，具体怎么操作。

你能够通过看视频得到吗，你能偷偷读书得到吗，他们都会帮助你，但是你知道你必须要去球场上练习，所以这个例子就说明什么呢，像踢香蕉球这样的东西，手工标注训练数据会是非常非常的困难，甚至有可能是不可行的。

对于相当多的所谓的智能认知，它必须在做中学，那么所谓感知，认知和行动，它们是密切的相关的，而且呢构成一个闭环，像这样一种认知，在最近几年，在这个如何识别这个问题得到了突破之后。

就会变得越来越受大家的重视，其实这是一个很本质的问题，这就回到了人类认识的这个理性的极限在哪里，这样一个哲学级的层面上，如果要往前追溯的话，可能可以追溯到笛卡尔对吧，那么在这个这个认知科学界呢。

60年代也有很多人去回顾它，那么我这里回顾一个在认知科学界，曾经被提出来的所谓的巨深假设，他说智能是智能体啊，在智智能体育环境的交互中涌现，是感觉运动行为的结果，所以在这种观点之下，没有交互，没有巨深。

我们的智能就没有办法跟这个物理世界，真正的打交道，当然也可能可以稍微引申一点，像这个大模型里边的相当一部分，hallucination的问题对吧，大家都知道这是重要问题，有一部分的这种错误。

他可能必须要回到物理世界，通过验证，通过假设检验完成，巨神智能一定是人工智能中不可或缺的一环，所以在剧生智能时代，核心的科学问题是什么呢，啊我认为是概念的涌现，表征的学习。

但是呢它的基础框架是在耦合感知，认知和行动这样一件的这个大框架下，因此我们可以说，巨生智能的最终目标是构造像人一样聪明的，能够自主学习的这种机器人智能体，但是呢它跟传统的机器人科学。

它在方法论上可能是有些区别的，这个区别就在于它是数据中心的，他关心的是如何从数据中得到概念的涌现，和表征的学习，那么从数据科学的角度来看呢，从计生制啊，数据呢在剧生制当中呢有非常多有有意义的。

或者说这个值得我们思考的这个事情，第一巨神智能它一定是一种多模态学习机器人，通过看这个世界来了解这个世界就有图像，第二如果他打算从internet video上学习。

如果他打算从human demonstration中学习，那么这里就有视频和音频，第三如果他接受人的指导，如果他需要描述任务，如果他需要去对计划产生一种规划，那么需要有language。

第四交互是有力反馈的，那么这里它需要触觉反馈数据什么态，最后这个交互最终会变成某一种控制信号，因此它的输出它必然是一种控制信号序列，这样一种模态，所以巨神智能必是一个多模态的一个设置设定。

同时也就涉及到本质上来说，各种各样的这种神经网络的架构，来处理矩阵集合图序列等等，第二个大问题是在巨神智能中数据的获得，那么可以说从互联网智能到巨神智能，这里也是个巨大的一个变化，互联网智能时代呢。

总体的这个模式就是人类制作数据集，人类做标注，那么算法建立映射，而到最深智能时代，那么一个机器人他应该能够自主的去学习，应该能够主动的跟环境交互中呢来收集数据，数据收集人不只是人，更是机器人自身。

他必须能够通过历史来学习好，这就涉及到了这个啊，决策论中的一个很本质的一个一对矛盾，就是探索和利用ipation versus is pot，第三点，当数据被收集到之后，应该怎样被处理。

那么我们说数据从感知端流动到决策端啊，中间呢会经过一次对世界的建模，所以呢这里就产生了这样的，比如说任务驱动的表征学习，比如说除了我们要知道它叫什么以外，对物体的功能的一种理解。

那比如说对于我们从来没有见过的物体，通过交互呢需要这个新的概念，包括物体的概念，包括材质的概念或者部分的概念等等等等，功能的概念，这些涌现现象怎么解决，这都是新的科学问题。

最后对于这个巨神智能体的这个performance，这个evaluation呢也是一个困难，那么它也面临很多的，如果您是从这个计算机视觉来的话，这里边有些问题你过去可能并不太关心，比如说如果要机器人。

能只能呃这个整理这么一个混乱的屋子，对不对，他要能够去处理任何一个物体，他还要能够干嘛呢，这个把很多的基础技能串联起来，因此呢我们考察的角度，比如说任务的完成率。

还有呢比如说有一个叫sample complicit的概念，也就是说为了达到一定的这个成功率，你需要做多少次交互才是必要的，最后那么决策这件事情呢，它是一个很长的sequence。

你可能需要某一种所谓的组合泛化能力好，所以所谓聚生智能，它其实呢是一个相对遥远的目标，它能够涵盖人工智能，将来的这个也许是一半的东西，另外一半那当然就是不具深的智能对吧，它基于40年代的控制论，信息论。

博弈论，60年代的认知科学，以及近年来视觉图形学这个自然语言，那个机器人，还有这个这个机器学习等等的进展，它是一个综合性的一个任务，是一个啊，人工智能的下一个里程碑式的这么一个目标，行下面我再说一点。

我个人或者我们组呢，对所谓的具身智能的核心挑战的一个理解，但这样一个理解呢啊我的感受是，他在逐渐的成为一个学界的共识，但是并不是每个人都完全同意的，那么在这里呢我来展示去年的两个工作啊。

去年是巨神智能有很大的进展的1年啊，右边这个工作呢是google的工作对吧，他是在真实世界中的这个这个机器人，那么它跟大模型结合起来，工程师呢提前预定义的一些操作技能结合起来。

左边这个工作呢是我们组今年在acclear发表的，一个所谓啊mobile manipulation，也就是移动物体操作的这么一个这个这个研究，通过强化学习呢，啊学会了这么一个机器人去做这些事情。

那么虽然这些demo看起来都很漂亮，但是它背后是有一些小秘密的，什么命运呢，就他们基本的实现的这个方法，都是所谓的技能链接，skill training，这里我对技能稍微做一个定义。

这里的技能或者叫基本技能，它是一些个短句任务的这种solver啊，这短句基本上你可以从时间上认为是这个，两三秒或者最多是四五秒这么一个尺度，那么对于复杂的事情，它总是由这些基本的东西来串联起来的对吧。

比如说我们这个work它训练了七个基础的操作，物体操作技能，那么呃c看我没记错的话，当时是40多个这个基础的啊，物体操作技能它是工程师手工设定的，但是，事实上如果你看这些demo。

他们到底能不能在真实世界中部署，那么你会认识到basic skill这些基础操作技能，它很大程度上是一个瓶颈，为什么呢，因为这个时候机器人要对付什么呢，对付复杂的物理，这里的物理既包含光学的部分。

也包含运动的部分对吧，这个视觉的挑战也包含摩擦力啊，呃这个这个物体的这个转动惯量的变化呀，甚至是软的物体还是硬的物体啊之类的东西，那么还有物体的这个形状的这种变化，还有呢就是当你机器人去操作的时候。

他的这个所谓的动作空间可能是高维的，例如你用五指，它有几十个关节，那么这些关节的控制这都是很困难的问题，可以说啊对于具身智能来说，尤其是像机器人似的这样的剧生智能，那么我会认为所谓的物体操作技能的学习。

是其中的一个这种cornerstone task，它的基石性的任务，它的地位就好像在计算机视觉里边的，这种物体识别一样，如果识别能完成，那么剩下的很多的事情它都没有那么难。

所以下边呢我就会讲讲我们组有关这个啊，基本的操作技能，学习的一些近期的代表性工作，这个是一个这个采样式的这么一个介绍，如果对更多的事情感兴趣，可以看我的主页。

我会分成算的数据和算法两部分来介绍，第一部分数据，如果我们的剧盛智能也打算走大模型的路线，那么我们就需要大数据，大数据哪里来两个基础的来源，比如真实世界或生成合成数据啊，当然就是指的模拟器。

那么当然在真实世界中采数据是有很多手段的，比如通过这个摇操作对吧啊，比如在真实世界中去做强化学习等等，在这里呢我主要想讲的是，模拟器呢，有一些真实世界数据收集所不可比拟的优点，第一点是所谓的可扩展性。

那么真实数据都能收集数据，需要很多的真实的机器人，机器人的造价是高的，而且呢很多时候是危险性问题的，而且呢也很容易坏啊，我们的深度学习之所以这么的成功，一大原因就是因为显卡便宜。

一块显卡当年可以做很多事，但是现在也变得呃这个受到了很多的制约对吧，如果巨神智能想大的发展，它的所谓的可扩展性，低成本，它必是一个重要的事情，第二点是可复现性，那么传统机器人呢。

他很多时候都是基于这个视频来验证，成功与否的，对于当年通过物理建模，通过控制理论的方法，这当然是可以的，但是如果我们的具生智能，它现在是以数据为中心的，这就有问题了，我们知道对于这种黑箱方法可重复性。

那么基于大量的测试来验证它的性能，这是必要的，但是用真实机器人，这很难，因为机器人的这个出厂设置不一样，或者型号不一样等等，都会带来问题，因此再通过一两个video来看。

是不是做了一个好的这种具身智能算法，这显然是不太合适的，那么真实世界，你很难做到这么大规模的严谨的测试，这是模拟器，也是有必要的，第三点是这个fast prototyping，这个呃快速原型啊。

对那么如果一组硬件用来收集数据，但是硬件又升级升级了，这个时候呢你的demo可能会作废的，对吧啊，但是在模拟器里这一点要好很多，因为模拟器的数据收集的成本要相对低低一些。

总之呢我认为模拟器是一个一次投资，但是呢持续开发成本会较低的，这么一种解决思路，那么基于这样一种思想，我们组呢长时间呢都啊在在推动机器人，模拟器这件事情的发展，那么呃今年呢我们嗯做的做做了一个工作。

叫做mini skill啊，二点，它是有关物体操作的一个这个这个整啊，统一的这么一种这个这个测试平台，现在呢有20类的操作技能，或者是这个任务的这个这个家族，超过2000个物体。

以及呢包含了超过400万个物体操作的，这种啊实力，那么这儿有一个视频来看看啊，这是一个简单的推椅子的任务，这里我们建模了摩擦力，建模的碰撞等等，都是有很多精细的建模的，好我们啊在这个计算机视觉图形学啊。

机器人等等会议上发了很多的文章，文章都是去思考如何提升它的这个真实性，从而使得它尽可能的能够啊在在模拟器里呢，大家我们尽可能的避免创造，在真实上不必要存在的一些困难啊，我这儿呢给大家一个。

我们最近的一个有关这个触觉仿真的，这么一个work对，那么我们通过有限元方法呢，对这个啊基于形变的这种触觉传感器，进行了仿真，并且可以证明的是，通过强化学习，你可以学到一个不需要视觉。

只靠触觉反馈的这样一个，这个，对于任意一个物体的精细插孔，操作的这么一种策略，那么在模拟器中进行训练之后呢，是可以直接的被迁移到真实世界中的，当然这个工作我们也是刚刚完成他的代码的。

这个开源还没有还没有进行，我们会逐渐的去做这件事情，下面呢我讲一讲算法的事情。

我们不管是通过真实设计还是模拟器，假设我们已经能得到一些数据了啊，那么下面一个问题是，我们用什么样的算法来得到这种鲁棒的，可泛化的物体操作策略，这里呢通过模拟器，我们是比较容易去测试它的。

所谓的这个方法性的，比如说这么多的椅子在这个房间里，你都希望它呢能够被推推走，推到一个指定的位置。

再一个呢就是所谓的组合方法问题，作为决策，你应该尽量的做到，在简单的环境中进行训练之后，这个策略呢能够在复杂的环境中被使用，所谓的这个组合泛化。

那么要点就是考虑，如何让我们的策略是更加的结构化的，那么我们考虑一种策略是，比如说用简单的神经网络，这是强化学习一直在做的事情对吧，比如用m l p或者cn来表达这个操作策略。

这个问题就在于它的泛化性是比较成问题的，尤其是组合泛化性，当然如果用所谓的这个rule based，这种这种基于规则的系统，那么在你的rule能摸到到的地方，它的组合泛化性和泛化性相对都是好的。

但是它不具备灵活性，比如说它很难能够通过视力来进行学习，所以这样来看的话，我们能不能走一个中间路线的，也就是说我们能不能考虑某一种结构化的啊，基于神经网络的策略呢，这是这个这个这样一个思考的一个重点。

那么从理论上来说呢，这个背后的思维应该是叫做这个算法对齐或，orgorgorithmic alignment这么一种事情，也就是说你的神经网络的结构设计，应该能够对应你的决策所需要的一种算法的。

这个这个这个推理过程给大家一点点感觉，比如说你在理论上可以证明，那么这个比如2020年我们曾经展示过，实际上图学习方法呢，它可以去近似任意的动态规划可计算函数组，同样的近年以来呢还有更强的结果。

他告诉我们呢，为什么g p t这样的transformer based model，这么强大，因为实际上它的表达能力的上限是，它可以近似任意的图灵可计算函数对，那么我们的决策这件事情呢。

背后有很多的reason，我们当然希望追求一种图灵可计算的函数，逼近能力，能够实现它，因为这个transformer这一类的大模型呢，或者sequence modern的模型呢。

在自然语言上取得了很大的成功，所以我们呢也收到这件事情的启发，想看一看，毕竟control signal对吧，控制信号它也是sequence，我们是不是有好的思路，能够用像语言模型一样的建模。

一样的方法去弄它呢，那么我们今年呢有一个最近的工作叫做啊，基于思维链的这个预测控制诶，那么这里呢我们考虑的是，把这个终端控制器的速度控制信号，也当成是一种像语言一样的token去建模。

因为我们有了minus skill collect，很多的这个事例的这个trajectory，这使得我们有可能探索这个方向，所以这也是模拟器的一个好处，也许他做的东西还没有一步到位。

但至少它降低了你的实验成本，那么至少从结果上来看，我们跟这个呃，之前的一些其他的这种啊序列建模控制信号，序列建模的方法，比如decision transformer啊，defer啊等等等等，相比呢。

在一些很困难的精细控制任务上，是取得了很大的提高的，这儿的精细控制是，比如说我现在打算把这个棍子插到这个洞里去，当然这里呢有很多的随机性，对棍子的粗细位置都会变化，这个洞的大小啊。

这个这个洞的位置大小也会变化，但是我们有个很高的精度要求，就是只允许有3mm的这个这个误差，在这么困难的一个task之下呢。

你发现强大的大模型是有好处的，好我下面具体说一下啊，我讲了，那么我们这个方法的核心思想呢，实际上是仿照了所谓的思维链技术，因为大家如果对语言模型有，有有一定的了解的话。

大家知道这个语言模型之所以那么强大，能解很多的数学题，对不对，他用了一个叫less things by step的一个技巧，也就是思维链的技巧，他把复杂的事情呢变成一步一步的去完成的。

那么一步一步去完成这件事呢，就就开始逼近我前面讲的所谓的这个这个图灵，可计算的，这样一种程序的，这种对齐的，这样一种这样一种这个这个思维模式，所以我们这儿呢把整个物体操作中的，这个关键状态。

用它来构成这个思维链，例如说对于这个pinsertion task，这儿的关键状态，就包括手抓住这个棍子，棍子已经跟孔洞对齐，孔洞已经足够深的插入到了呃，这个棍子已经足够杀深的插入到这个孔洞中。

这些关键帧就可以成为一种这个所谓的啊，操作序列的思维链，那么为什么是这些状态呢，呃很有意思的是，像cheat gb t这样的大语言模型，它很强的，你问问他所谓的把一个棍子插到洞里分几步。

他是真的可以告诉你的，他认为就是这样的，但这后边有些更本质的原因，这个更本质的原因是什么呢，那就是虽然操作序列是一个长序列，有非常多的不确定性，但是在这个完成的过程中，总会有一些个所谓的关键状态呢。

它是某一种意义下的不变状态，它是一些个方差非常小的状态，也就是说例如说我抓一个东西，我不管手是从这边绕过去还是那边绕过去，我总归要抓住他，抓住他的状态是本质的，如何绕过去就没有那么本质。

同时这些关键状态呢啊，也是具备更好的，所谓的这个可泛化的这种能力的，因此我们的这个所谓c o t p，c这个工作的基础思想，就是在每一步我们会动态的，首先去预测这些关键帧，形成这个高层的思维链。

那么然后呢对于每一个关键帧，结合过去的一段时间的这个经验，再去预测底层的控制信号，这样一种方法呢可以形成很高的一种啊，很好的一种效果，那么我不继续的去讲它的架构了。

但总体来说呢是我们在g p t的基础上，把它架构上改造，重新训练，然后呢，呃变成了这样一个控制信号的，这样一个建模工具，我们在里边用到了这种ca。

早的和out to out的这种attention module，我们这里边呢作为一个control signal sequence model to，也有learnable prompt等等等等。

大家感兴趣可以看细节啊，最后我展示一下这个事情呢，他在模拟器里训练也是可以transfer real world，好啊，最后一点点时间我说一呃，我展示两个有关这个3d a i。

g c和所谓这个具身智能的关系，这两件事情呢都很火，但是其实呢在我的观点里，他们的关系也是很密切的，为什么，如果你会认为据深智能家将来也要用大数据，那么它的数据哪里来对吧，如果你打算用模拟器的话。

那么模拟器里边首先要有足量的几何数据，而3d的ai gc，它可以帮你去生成大量的几何数据，基于这样一种理解呢，我们组长时间的都在关心这件事情，那么基于尤其是最近流流行的这个神经辐射场，nf这样的东西呢。

我们做了一系列的工作，想办法提高他的这个这个重建速度，想办法提高他对大场景的这种重建能力，想办法不光让他能够去这个capture appearance，而且能够让他把几何材质，光照动态性质解耦。

就是物体的结构等等等等一系列的工作，那么形象一点呢，我给大家看一个最新的一个东西，假定我们用相机在多个视角拍摄一个物体，那么在不需要人干预的情况下，我们现在已经能够非常自动的通过一个。

我们组最近开发的叫你manifold的一个算法，在差不多一二十分钟的尺度上呢，得到一个高质量的mesh，它具有逼真的这种啊appearance，而这样一个match是可以直接拿进模拟器仿真的。

当然我这里稍微说一下它的几何，它的物理属性呢，这是一个这个预假预假设的，它不是真的从真实世界中估计的，总归这是一种手段，能够让我们帮助模拟器里的数据。

同时呢我们也比如考虑把这个diffusion model啊，就扩散模型和nerf结合起来对吧，使得我们能够从比较少的数据出发，通过这个diffusion model呢放大三维数据。

那么我们希望的是三维的这种啊，3d数据的a i g c在接下来的几年呢，会有突飞猛进，突飞猛进的加呃，这个进展使得我们的虚拟世界的内容更加丰富，所以基本上我的呃技术部分呢就介绍完了。

那么这是我自己对所谓的具身智能的一个，全局性的一个理解啊，居身智能呢有非常多的应用，有很大的这种工业价值，那么它的核心呢，我认为是要完成大数据的收集和所谓的，foundation model的训练。

而大数据呢是很多层面的，从几何到物理到语言和交互过程等等，那么所谓的foundation model呢，我的观点。

机器人的fdation model也不是一个它需要感知的foundation model，需要对这个物理世界的动态过程的理解，需要对任务理解。

这都是fdition model以及决策的fdation model，好在现在的每一个fdation model，其实研究界都已经开始思考了啊，同时在这个过程中呢，这个有监督学习，强化学习。

以及呢这个如何去对，去实现这种算法的alignment等等的，这也是machine learning里边很活跃的一个任务，所以像这样一件事情，能够把视觉图形学机器人，这个机器学习统一起来啊。

这是还有机器人呢统一起来，这个我认为是接下来的若干年，非常让人激动人心的一件事情，好非常感谢大家的聆听，非常感谢苏老师的这个演讲啊，那么我们由于这个时间的关系，我们把这个呃提问和交流的环节。

留到最后的这个panel discussion，那么我们有请这个呃，我们今天的这个第二位speaker啊，来自北京大学的助理教授啊，志愿学者吴宗青老师给我们带来，从视频文本到智能体的策略学习。

鲁宗清老师是北京大学计算机学院的助理教授，博雅青年学者，国家海外高层次青年人才，北京智源人工智能研究院，多模态交互研究中心的负责人，他的研究主要围绕着强化学习，以及开放世界的通用智能体研究，好。

那么呃卢老师啊啊那个文科的介绍好，这个没开吗，开了，ok刚才那个苏浩从cv的角度出发吧，因为他background cv，那么去谈到这个学生智能，那么我的background是强化学习。

所以的话我从强化学习的角度来看一下，如何去做到师生智拒生智能，那么强化学习的成功我就不说了，但是他的问题也很多，比如说啊sample efficient，比如说对于break out来讲的话。

一个非常简单的terry game，可能需要1000万步才能完成，这个学会完成这个游戏吧，以及对于一些啊long horizon sparsal，word task来讲的话。

基本上是impossible，就是如果我们从learning from scratch，去通过强化学习算法来去学的话，我们后面会看到一些简单的minecraft，游戏来讲的话，基本上是学不会的。

那么最重要的就是啊最被诟病的一点，强化学习就是啊training set和test set是一样的，他在这个training的任务上去测试这个结果，那么比如说就像玩一个terry的game。

然后去然后学完这个游戏，我们然后的任务是比如说建一个房子，那么显然是做不到的，那么啊或者我们呃对于今年的话，我们的一些思考是说对于强化学习来讲的话，我能不能去leverage这个video或者数据吧。

video和text来帮助我们的策略的学习，比如说现在你要去建一个房子，那可能我我想在座的各位，在座的大多数的各位应该就不会去，或者是从来就没有干过这件事情，但如果让你去干的话，你怎么去做呢。

啊可能问一下chess gb t，比如说啊怎么去建一个房子，七gp告诉你不拉不拉一堆对吧，然后你也可能比如说在minecraft里面，建一个房子的话，那你可能是在比如说youtube上面去看一下视频。

看一下别人是怎么造的，比如说先去啊la foundation给这个房子，然后再去造墙等等等等操作吧，那么我们是不是也可以让智能体通过啊，文本或者是视频来帮助智能体更好的学习策略，那么这个的话是啊。

这次讲座里边想讨论的一个问题，当然我们啊刚才也提到了，对于minecraft来讲的话，我们有很多视频，有youtube的视频，然后我们也有比如说玩家在好玩视频的时候，一些对话，一些字幕。

那么这些呢都是一些数据的来源，另外一个对于minecraft来讲的话，它是一个开放的环境，那么是啊对比于这个真实的人类的世界，当然可能一些操作啊，没有像刚才说要讲的那些啊simulator。

simulator里面那么的真实，但是这边的话也是对真实世界的一个analog，ok我想和大家分享的就是我们啊这半年吧，在志源在北大联合去做的一些事情，那么去啊有一些尝试去如何通过视频文本啊。

比如说语言模型，然后去更好的解决这些事情，然后在minecraft的这个环境中呢，去更得到一个更通用的啊智能体，ok那么第一个问题就是，比如说我们有64万个视频对吧，玩家玩视频。

那么我们能从视频中学到什么呢，从数据中去学习的话，从数据中得到一个策略的话，最传统的方法就是奥莱尔啊对吧，offline，而我就是有这样一个状态，action下一个状态。

reward这样一个突破的dataset，然后从通过一些offer 2 l的算法来学习一个策略，那么对于视频来讲的话，它最多也就是啊state的一个序列，比如说一个视频的话，从s一开始到s t。

那么当然了，其实本质上来讲是啊observation对吧，它不是state，那么我们最多看成是state，那么如何去啊学啊，其实这边的话就像我们我们想做的是说，ok对于我们要去建房子的话。

我们去看了一些视频，我大概知道怎么去做对吧，我大概知道啊，了解一下，比如说就说刚才踢球吧，踢球的情况下，你可能看别人踢球，你大概知道要怎么去玩这个足球，然后你去尝试一会儿，你可能就学会了对吧。

那么这样的话其实啊一个比较standard的问题，就是learning from observation，但是我们这边加的是visual observation，就是对于一些视觉输入来讲的话。

它其实本质的问题就是我要学一个策略派，派的话，他啊派所导致的这个状态，和下一个状态的联合的概率分布呢，和专家的概率分布是一致的，相当于我们要最小化，这个比如说f distance。

其实这个是我们能从视频中啊，最好的能学到的一个东西，当然如果我们只是一个offline学习的话，我们只是利用数据去学的，没有跟环境交互的话，想让这个派是学不到的对吧。

因为我都direction space是什么，我都不知道，那么我们如何去做呢，啊这边的话，其实我们是做了一个这样一个形式吧，这工作叫这个pretrain state，transformer。

相当于是我们在这个embedding层面呢，是通过一个transformer，然后去预测下一个state是什么，当然是在embedding空间啊，1t pass one，然后通过一个辨别器来判别。

预测的这个embedding和真实的embedding，这样的话对于下游任务，或者是对于online learning的过程呢，其实这样一个判别器呢就可以提供一个reward，来让帮助智能体学习。

当然不同于以前的learning from observation的方法，它都是一个online的学习的过程，包括这个判别器，那么这边的话是通过一个transformer的结构，来offline去学习。

相当于ok，我现在所有的视频上去过一下这个数据，然后去预测下一个state是什么，然后通过这个判别器的输出来构造一个reward，让智能体来学习完成这个任务，需要注意的是，我们在学习的过程中。

在跟环境交互的过程中，我们其实是不需要环境提供任何的reward，function或者是reward，我们仅通过这个啊interesting rewards，就可以完成这个任务，这是啊怎么说。

这就是一些公式吧，我就不一一介绍了啊，大体的就是刚才说的预测下一个state，然后一个m c的loss，还有一个判别器，当然这边的话呃，最下面那个公式其实是一个啊在十啊。

在tempo层面的一个regression，相当于ok我给定两个state的embedding，然后我去预测他们，他们这两个之间的这个time step的啊。

这个difference就是从他到他去过了啊，几个time step，看这个的话，是为了增加这个提升这个retation的能力的，那么有了这样一个transformer，相当于是我通过看视频学到了一些。

学了一个reward function，然后再去online交互的时候，通过这个reward function来学一个策略，那么这样一个策略的话，这是minecraft的一些简单的这个环境。

那么在这个简单的环境中呢，我们其实可以有一定的成功率吧，比如说对于前三个的话，它其实成功率还蛮高的，因为在minecraft这个环境中的话，大大部分的成功率都是以百分比计算的。

因为它有啊有有概率是你在环境中，比如说你找不到一头牛的，ok，呃细心的听众的话可以看到这些啊，caption的话其实是就是这个任务的描述，比如说我要去呃挤牛奶。

它其实就是让agent在环境中去找到一头牛挤牛奶，那么我们是不是也可以利用这个task prop，然后去帮助智能体更好的学习，当然如果我们能去啊，最简单的去correless这个这个牛啊。

这个这个这个就是一头牛，如果大家不熟悉这个minecraft的话，能够把文本和图像联系起来的话，其实啊就可以帮我们去做到这一点，相当于ok现在智能体在环境中走来走去的，然后现在的任务是去挤牛奶。

那么他看到一头牛，那它能够call it，看到的东西和要完成的任务的语言来描述的话，其实可以给自己一个奖励函数，然后让他去找到，首先得找到这头牛对吧，那么呃为了做到这件事情。

我们同样的还是从这个video里面去找到一些，这个video和text pair，当然是通过关键字的搜索，然后去啊主要是匹配字幕啊，我们先用这个啊whisper，把这个的这个视频的这个语音呢转成了文字。

然后在文字中搜索，然后再去匹配对应的time step上面的video，然后来组成这个数据集，然后然后就可以通过two tower keep，然后去啊fighting这个clip。

让他去关联这个啊文本和这个图像，那么对于，在执行任务的时候就随机sample一些negative pump，这样的话就可以通过这个cosine similarity，给智能提一个好奖励函数。

来辨别k当前这个画面下有没有我要找的东西，或者是呃这个跟这个任务相关的一些这个object，当然为了更适应强化学习的话，我们在网络层面做了一些操作。

相当于去additional align这个啊motion，除了这个entity之外，去additional live motion。

这样的话其实对于这样一个vision language model的话，它其实在一些任务上还是要有进一步的提升吧，但是对于这样一个方法的话，呃，我们可以看到就是这个这个数字，就是刚才说的这个word。

我们可以看到当智能体离这个牛越来越远，或者是距离不一样的时候，它其实这个给的奖励函数是一样的，但是呢我们大部分的任务都需要智能体，去接近这个牛，比如说我要挤牛奶的话，我可能啊走到你跟前。

然后用桶打他一下，然后就挤到牛奶，但是如果我们只是这么一个奖励，在任意的distance下面都是word都是一样的话，他显然没法鼓励智能体去做到这件事情。

我们想要的可能是一个bounding box对吧，当然我对cv不是呃，bone不是cv，所以对c不是很懂，但是我们想要得到的就是这么一个类似的结果，相当于是ok我离你越近的话，reword应该越高。

呃一个简单的方法啊，相当于是我们可以通过一个啊self supervise，the segmentation方法去做到这件事情，然后呃就是通过这个我们target这个entity。

在pixel中所占的比例，那它其实就不能刻画我刚才要说的这件事，要做的这件事情就是越近的话奖励越大，可以看到通过这样一个简单的方法的话，我们可以看到对于这个比如说这个不是牛的。

这个是minecraft里面的羊，那么对于这个羊的话，随着它在这个画面中的大小的话，我们可以看到这个啊分割出来的这个羊的，这个pixel的占比的话，可以被这个啊完全的刻画出来吧。

尤其是从右边数的第二列的第二行，第二列的话我们可以看到，虽然虽然那个羊特别小，但是它还是能被分割出来，那有了这样一个奖励函数的话，其实我们会比比如说我们仅仅仅用clip来做来。

来驱动这个智能体去完成任务的话，比如说啊没有call或者combat pig的话，要做的更好，当时我们刚才刚才说的这个，我们在做这个segmentation方面的工作的时候。

其实那会儿还没有这个segment，anything model在做的这个过程中呢，他们release这个这个sum，然后我们就用sam去做了一下，比如说对于这样一个三这个minecraft场景的话。

这个segmentation其实还是不错的，就是对于啊比如说这个点打得比较密的话，它其实分割的还是可以的，但是问题是，我们需要去判断这个羊所占的pixel是什么，那么用需要去分辨这个的话。

我们还得再接一个模型，比如说我们用光电dino，然后先去做一个detection，然后找到一个bounding box，把这个bounding box呢再是在给sam。

然后sam呢再根据那个bounding box，然后再去做分割，那这样的一个情况的话，相当于我们就可以去链接这两个模型，让他直接在这个minecraft这个场景中，去做到一个，实体化的分割吧。

当然能够识别出羊来，但是问题是，因为这些这两个模型都是在这个real image上面，训练出来的，对于这个啊minecraft这个游戏的场景的话，他其实做的并不好，比如尤其是从右边数的第二列的话。

我们看到分割的话，他把羊分割了整个区，整个区域，这样的话显然会误导智能体去啊学习这个策略，我们从这个结果也可以看到，如果我们直接把zero shot把它搬过来的话，它其实并不能做得更好。

刚才是啊讲的这个一些简单的任务，我们都是啊，比如说在环境中能找到的东西，对这个东西进行一些操作，对牛对羊，反正这些物体吧，creature，然后进行一些操作，那么比如现在的任务是比较复杂的。

一个任务是说我们要去造一个熔炉，craft a craft furn，那这样的任务的话，因为这个熔炉的话，他其实在这个my craft世界中是不存在的，是需要造出来的，那么造这个熔炉的话。

如果大家玩过这个游戏的话，应该知道这是一个txt的任务，那么他需要很多的步骤，比如说他需要去先去砍树，然后造craftable，然后再去造一个木镐，然后再去挖石头，挖了石头之后，你可能才造熔炉。

但如果是更复杂的话，比如说你要挖钻石的话，你可能需要造完，融入之后要造这个石镐，石镐挖，挖铁矿等等一系列的操作，这边只是举了一个简单的例子，那么对于这样一个任务的话，我们如何去完成呢，那么这边的话。

其实我们啊对于刚才这个pc的任务的话，我们其实看到他其实大部分都是有一些啊，scale的组合，其实就可以通过他们这个skill的组合，就可以完成，那么这边的话我们是定义了这些skill。

比如说我们找东西的skill，manipulation skill以及craft skill，那么通过分为这三类scale，当然如果就是可以根据go base的方法去简单的，比如说弄成三个策略就可以了。

那么如何去有了这些scale之后呢，我们就可以在这个skills层面呢去做一个planny，比如说我们现在要造一个熔炉，我可能先去调用这个找木头，找树的这个skill，找到树之后，把那个木头砍下来。

巴拉巴拉一步这些一顿操作，把最后把这个熔炉造出来，那么基于这样的一个框架的话，其实就是这样一个形式，就是我们要完成的是复杂的任务，刚才讲的那几种几种方法，就是不管是vision of language。

model base的方法，还是啊c h6 的方法，还是赛后2号的方法，它其实都是用来学习这个skill的，这边的话我非常同意刚才苏浩讲的，就是现在很多的研究的话，他其实把这个skill这一步给跳过了。

尤其是在minecraft里面，同样的比如说像nvidia他们做的，他们直接把skill写成了一个rubase的方法，然后直接去掉这个东西，但是问题是说，这个scale本身就是非常难学的一件事情。

如果你只是写了ruby的方法的话，相当于把人类的知识全加进去了，那么如何去学这个scale，其实是呃强化学习一直关心的问题吧，从就是从解决单个问题的角度来出发的话，那么我们这边也是同样的。

就是我们如何通过这个视频来学这个scale，以及通过一些卫生language model或者是分割的方法，从视觉的层面出发去学这个skill，这个skill本身就是比较难学的一件事。

呃即使是在minecraft这样一个游戏场景中，另外就是我们专门分离出来这个找东西，这个策略，为什么要去把这个策略分开分离出来呢，其实我们可以看到这是两个两个url的方法，一个方法是嗯它的距离不一样。

这个下最下面这一行的话，是离你的target物体初始化的距离很近，那我们可以看到，当你当着呢离这个物体很近的时候呢，它的成功率就会显著的提高，那么也就是说如果我们要去砍树，我可能要两个策略。

就是先找到树，然后把树砍下来，这样的话更容易去学习，如果你的一个策略的话，你可能成功率很低，那么对于找东西这个策略的话，其实也是一个比较重要的，对于漫画的这个环境，或者对于一些其他场景也是一样的。

你要找一个东西，其实你就是在呃这个环境中去随机的探索去找，那么这样的一个方法，你只能去像state courage一样，在rl里边，你可能去啊便利这个state，然后去找到这个东西对吧。

那这边的话其实也是一样的，我是一个hierarchical policy，然后high leo去pose一个target的state或者location，然后又让这个low level策略。

然后去rich这个targets，ok那么有了这三类策略，这个rap策略就比较简单，它就是一个合成，然后呢因为这个txt的话它其实比较特殊，我们可以通过拆gp t呢。

就把这个他们之间的这个dependency呢，把它给它抽出来，比如说我们去做一些prompting，然后让agent啊，让这个chegbt去输出这么一个dependence的graph。

有了这个graph之后呢，我们其实就可以在这个graph层面去做一个，interactive planning，相当于ok先去砍树对吧，砍完树你可能调用砍树这个策略，然后没成功，没成功的话。

再去做一次planning，就像啊就是m p c，只不过在skill层面去做一个m p c，这个的话是在啊四类的这个碳税的任务上面，做了一些测试啊，这个的话就是刚才提到的方法。

当然我们这边的话也用chi gp做了一些测试，就告诉chat gp t，我现在有这些策略，让touch让他去直接去做一个盘点，而不是基于这个skye graph去做叛逆，你看到啊。

因为h b的话它在数量上面，尤其在minecraft这个数量，我不知道，在其他的上面，在minecraft这个合成东西的数量上面的话，它通常会搞错，所以的话它的成功率并没有那么高，就比如说我需要假设啊。

七个木头去合成一个工作台，他经常会认为是五个木头去合成一个工作台，另外一个就是这个managent的，就是这个nvidia那篇论文，假设我们给他一vision language model。

让他去学这个跟啊铁矿相关的这些工作啊，这些任务的话，他的成功率就是0%，就是没有成功，我们后面会看到为什么他没有成功，这边的话是两个option study，那么第一个的话。

相当于是我们如果没有这个finding scale的话，它和它的成功率可能会降下来，就是其实验证了刚才所说的这个finding skill，其实是要单独拎出来，或者是有了它之后去更好的对啊。

这个任务呢做一个更好的decomposition，下面这个是一个interactive planning，当然interactive planning会更好的结果。

ok这边的话就是我刚才说的这个长城的任务，这个任务的话大家看到啊，右边数的第三列的话，它其实每个任务都大概需要1万步才能完成，而且这个任务只有在1万步之后才有一个奖励。

那么对于这样的强化学习的任务来讲的话，learning from scratch，即使用了卫生language model的这个reward，都不可能学会，这个是一个一个节点啊。

这个是徒手造这个铁镐的一个啊，完成各种这个任务的节点吧，哦对刚才忘说了一点，其实就是另外在这个planning的这个step上面，我们看到对于啊很多任务，比如说这个任务的话，大概需要这些scale。

执行120多次才能去完成这个skill，而是完成这个任务，所以的话他是一个非常难的任务，对于啊从这个planning的角度出发的话，ok那这样的话，我们就有了可以去完成复杂任务的这么一套啊。

hiro的结构，当然hi level的话，我相信啊，如果我们这chargbt或者老师，language model做的更好的话，他其实可以直接用这个language model去做planning。

但是下面要接的这些skill呢是需要精心的，或者通过强化学习，或者通过从数据以及视频的方法去得到，ok那么从这些研究中有什么启发呢，首先对于策略学习的来讲的话。

我们可以通过比如说offline 2 l去做游戏训练，我们先通过数据的学习，通过数据来学习一个策略，或者是通过看视频，通过刚才的方法来去学一个reward function，但是我刚才没有提到。

其实那个state to go transformer的话，如果再加上环境的reward的话，他的学习的效率会非常的高，这边没有展示，另外就是对于长城的没有。

这或者是special word这样的setting的话，我们是需要一个hierarchical的结构，对于这个panel来讲的话哦，目前认为我认为应该用语言模型，因为他的raining能力非常强。

所以的话用语言模型会是一个比较好的选择，最后提到的这个泛化性的话，同样的还是因为有策略的话，他不一样的task，他可能就是需要不一样的策略，但是对于哦我们来讲的话，我们的视觉。

我们的语言都是具有泛化性的，因为它是统一的表示，所以的话策略的泛化性，要依赖于视觉和语言的泛化性，来实现策略层面的泛化性，另外就是我们啊现在在做的一些事情吧，应该是现在在做的事情。

一是这个老师language model，它是都是从tt文本里面去学到的，它是没有跟他是没有见过环境的，比如说我们现在真的要部署一个large language model，去做planning的话。

它其实没有跟环境交互的这个过程或者流程，没有这个啊没有这个过程存在，所以的话我们要做的事情，比如说在漫画中，我们是希望在一边跟环境交互得到这个，比如说tragegy的这样一个sequence。

那么我们如何通过这样的sequence，fighting这个large language model，让它具备具有跟环境交互的这样一个经验，或者让他得到这样一个知识，另外一个是我们啊。

同样是在minecraft边在做一件事情，我们是希望做一个visual word model，希望能从视觉的层面把它跟这个language model结合起来，让它更好的从。

怎么说通过老师language model，对这个视觉的感知有更好的一个啊，对物理世界或者游戏的引擎来讲的话，有更好的理解，另外是creative vision，这个有点crazy啊。

就是我们也在做尝试，就是我们如何通过告诉智能体，比如说啊做一件create的事情，比如说让他去造一个房子，那么他造出来的房子会不会不一样，会不会有什么diversity。

那么这个也是我们目前在做的一些事情，好就是感谢这个我们的团队，以及就是提到的四篇论文吧，也是刚刚投出去的，这半年的工作，另外的话做个小广告，现在因为我负责多模态交互研究中心，所以的话大家有兴趣的话。

可以我们持续在招这个研究员和实习生，如果大家有兴趣的话，可以那个扫码联系我，ok谢谢大家好，我们这个非常感谢这个卢正卿老师的这个呃，呃talk啊，我们看到这个呃第一位speaker和这个呃苏老师。

那么关注的是呢这个物理啊，我们这个不管是simulator里的物理呢，还是真实世界的物理和它里面的几何，怎么能帮助到我们的巨深学习，那么我们的这个卢老师呢，我们在这个minecraft这样的一个抽象。

但是又非常复杂，具有非常长城的任务，这样的一个环境中呢去学习智能体，怎么把一个复杂的任务拆解成一系列步骤，怎么在这之中呢去有这些啊，high level的智能，那么一个很重要的问题。

就是我们的具身智能怎么样呢，跟我们人类打交道，所以说呢我们今天这个请到了第三位speaker啊，这个来自清华大学的副教授孙亚楠老师，将给我们带来交互式建模与学习，重建人类运动能力的talk。

允许我介绍一下思维老师，孙亚楠老师是清华大学的副教授，致力于机器学习，神经交互和机器人技术研究啊，他分别于清华大学获得学士学士学位，美国加州理工学院获得博士学位，并在加州理工学院和斯坦福大学。

从事博士后工作，研究成果作为独立专题，写入斯坦福大学等高校教科书的啊，algorithm for optimization，曾获2020年机器人与自动化国际会议，equa最佳论文奖，并在中国和美国。

应用于神经损伤疾病的临床治疗啊，那么呃，并且呢，由于在人工智能与神经科学的，这个交叉领域的贡献，入选麻省理工呃，科技评论，35岁以下科技创新三三十五人中国区榜单，让我们欢迎孙亚楠老师，好啊。

谢谢谢王老师介绍啊，谢谢大家，这个今天今天下午啊，这个现在应该同时正在进行的，我看那个时间表上，还有那个郑南宁老师在同步的在讲，这个剧社学习，感谢大家这个来我们这个session，我们更年轻一点。

可能这个这个讲的东西，更加的这个边边角角一些，可能会对大家的胃口哈啊，呃我今天的这个报告的题目，叫做这个教务室建模与学习，来重建人类的运动功能啊。

所以大家看这个title里面有modeling and learning啊，我们会讲一部分矛盾，讲一部分learning，那么我们的目标是restore human motor functions。

所以大家会在里面会预期的会看到一点哈，我们如何来这个重建人的这个运动功能啊，那么先简单的来过一下，我们这个接下来的半个小时里面，我们都要讲哪些东西啊，首先embodied intelligence啊。

这是一个很大的概念啊，前面的这个苏浩老师给了一个很好的一个这个，embody learning的一个一个一个概念啊，这个卢老师呢把他和强化学习之间，进行了一个一个一个关联啊。

后面那个蒋老师的报告会把它和这个视觉，还有这个对于世界的构建，会有一个很大的一个关联啊，那么我的报告呢在这个里面，其实是关注其中的一小块，learning to move啊。

我们关心的呢就是说我们的智能体，这个智能题主要是指我们自己如何来学习运动，然后如何来控制运动啊，那么我们的这个在现实世界中的这个应用场景。

或者说我们想做到的目标是human motor function restoration，我们帮助运动功能损伤的不足的这些患者也好，老年人也好啊，这些这个人群，我们希望能够让他的这个运动功能。

能够能够有一定的这个重建和恢复啊，那么我们是ai community啊，我们会从ai的这个角度，我们从embody learning，从reinforcement learning的角度来看。

说我们如何来做这件事情啊，那么我们最早采用的技术路线其实是model free learning呃，因为后面报告里面会给大家展开来看，说我们在很多人的身体控制上啊，我们很多东西都不了解啊。

你没有办法形成一个很好的模型，和这个基础知识构建的情况下啊，我们没有办法做很好的model base learning啊，那么我们就要从model free learning开始。

那model free learning呢我们又要从online learning来开始啊，因为offline learning需要你提前有很多的数据，这个事情在很多时候是没有办法做到的啊。

那么这里的红字是我们技术上的一，些主要的关注点，第一个是safety，第二个是preference，那首先learning with unknown safety constraints啊，大家知道。

如果我们在这个完全的虚拟世界里面啊，来做这些这个交互的任务对吧，比如说刚才这个卢老师这个minecraft里面，他去这个呃，他要去这个喂牛，或者是要去挤奶等等的啊。

他这个不小心被牛踢了一脚也没什么关系啊，是吧，这个但是在现实世界里就不一样了对吧，现实世界里，如果我们的对象是人的这个客体的话。

你再让他做online ing forcement learning的时候，这个安全性的保证，是一个非常重要的一个前提啊。

那么第二个learning with human preference be back啊，这其实是之前这个长期来讲，这个不是特别受关注的一个领域啊，但其实从去年今年啊。

随着这个chegb t里面的这个reinforce，learning with human feedback，而他的这个feedback很多时候是来自于human preference。

ranking啊，那么又开始受到大家比较多的关注，我们会看到现实世界当中确实很多时候，这些preference be back啊，是可以来帮助我们去更加稳健的来构建，reward的这个形式啊。

那么我们会讲一下诶，前面的这些方法，如何在现实世界的这个呃人的运动功能的控制，或者重建当中来得到一些应用啊，那在此基础之上呢，我们会发现还是有问题啊，问题在于，如果我们没有model。

如果我们不做这些机器人的这些建模，这个虚拟世界这些建模，我们在现世界里面我们的采样效率，所以大家看到这个第三个标红的关键字，怎么样来提高，怎么样来显著的提高，数个数量级的层面上的提高。

这个确实需要model啊，所以我们不可避免的要从model free走到model base啊，那么后面会介绍一下，我们在neuromusculoskeletal model。

我们的神经肌肉骨骼这样一个联动的系统上，如何来构建我们自身啊，并且基于这些自身的这个构建来学习啊，所以呢我们这个talk和这个呃，这个呃前面的几个talk的一个很好的一个衔接。

在于说前面两个talk都提到了一个关键词，word model对吧，大家看左下角word model啊，那么这个talk里面不会讲太多word model啊，我们其实更多的会讲self control。

我们从self control来入手啊，那么看到self control model free能解决一些问题，但是还有很大的局限，我们回过来来看如何来self model啊，最终我们希望我们的工作。

和整个embodia i的这个领域的工作合在一起，能从world model self model self control啊，形成一个很好的一个这个这个闭环啊，好啊。

那么首先这个我们从learning to move开始哈，大家看到这个这是这是一些数据啊，啊这些数据有可能再过几年，大家再回来看这些数据，可能会觉得他是有问题的啊。

这个因为我们的宝logical的这些数据本身，其实很多实验得到的，这个过程本身就不是很精确哈，比如说第一条我们说human model function。

我们的这些motor function呢是由最终端的这些motor，neurons直接来控制我们肌肉来实现的，motor neurons在我们人的身体里有多少啊对吧，大家如果我活写在这了。

因为我们时间有限就不做题，这个考大家了啊，这个写在这儿的大概15万啊，15万是现在的一个，这个前面的一个教科书上的一个统计的数据，那么这是大概15万个左右的motor neurr啊。

那么控制了这个600多条肌肉啊，我不知道在座的各位大家谁知道，就是人精确的来讲，我们人身上有多少块肌肉啊，多少块骨头，知道吧，应该应该是多数人知道多少块骨头，206，我们绝大多数成年人注意。

绝大多数成年人是206块骨骼啊，但是这个数字随着呃，这个不同的人也会有轻微的变化啊，那么肌肉人和人的数目也不一样啊，那么通常来讲我们看到数字说哎，有人说640块左右，有人说600~700块啊。

这是这个对于我们肌肉数量的描述啊，那么我们会看到诶大概15万个motor neurons啊，那么600多块肌肉，这个好像是我们今天强化学习，尤其是我们在simulation world里面往上探一探。

差不多能摸到的一个数据了啊，啊，所以所以这也是为什么我们在这个时间节点上，觉得诶这件事情可能可以做了啊，因为如果我们看第二行第二行的这个数啊，啊第二第二个这个hundred billion。

neurons in the brain啊，这也是一个很虚的数啊，大家在很多这个神经科学的讲座里面会听到说，诶人有这个呃eighty six billions啊。

eighty six billion neurs，有时候说是hundred billion啊，有时候还会说再大再小啊，因为这个实验其实没有办法做得很精确，所以到今天虽然神经科学非常火。

神经科学和我们的ai的这些连接非常火，大家频繁的会在各种的talk里面看到，说我们人有多少个神经元in the brain啊，啊，但是其实这个数到现在为止还不是一个确数啊。

那么我们的human motor functions关注的，或者说这个影响的人群其实很多的啊，它可以是由于疾病啊，比如说这个帕金森病啊，一些运动功能障碍的这些疾病可是损伤对吧。

比如说大家这个打篮球撞了一下呀啊，或者是这个这个这个怎么样的，这些这些损伤，也有可能是就是正常的这个自然的衰老，aging a ing，就会使我们的这个motor方式，我们的运动功能出现一个显著的下降。

好那么如何来控制我们的运动神经系统啊，我们从embody a i的层面上来讲啊，我如果是一个机器人，我来看人啊，我如何来控制一个人的运动神经系统，这既是一个生物学的问题啊，同时它也是一个计算学的问题。

我们今天特别感兴趣这个计算学的问题，就在于，刚才大家看到前面的大概15万和大概600，我们觉得这个数字可能差不多可以做了啊，好那么我们tackle的这个方法啊。

reinforcement learning，我们会比较多的来采用强化学习的方式，来解决这些问题啊，那么一个关注点是说哎，那么我们是在线的强化学习，还是离线的强化学习对吧。

如果对强化学习熟悉的同学会看到说online versus，offline，model，free，versus，model base，到底什么样的方法是可能对于这个问题更好的，更有效的啊。

我们后面会进行介绍啊，好human function restoration，那么具体的我们在现实世界中啊，我们的这个实验室，我们的合作者是怎么样来做这件事情的啊。

我们通过两个方式来去learn to move，或者说do the motion control啊，第一种方式是from the inside out啊，这件事情其实大家了解的相对来讲少一点啊。

所以我稍微花点时间介绍啊，大家看到中间的这个哦，有点有点像个虫子，然后上面还在亮的，这其实是人的一个通用的一个脊髓模型啊，这是我们做的一个人的通用的一个脊髓模型，它上面在闪的这个东西呢。

这不是我们人的神经信号，大家看到的是一个一个通道，这些通道是我们可以来植入人的脊髓里面的，这个神经刺激器啊，那么植入的这个神经刺激器诶，在可以植入到这个呃，这个这个地方。

就可以来帮助一些严重的运动失能的这些人，来恢复他的这个运动功能的呃，这个一部分甚至是甚至是全部啊，所以我们管这条路径啊，叫做这个neural neurostimulation。

by implanted device啊，这些患者在体内植入的这个设备，我们是看不出来的啊对吧，它在外观上来讲和这个健康人是一样的，那么他是一个from inside out。

我们通过直接来code它的神经系统的活动，使它实现一个运动功能的这样的一个重建啊，那么对应的另外的一条技术路线，from the outside in啊对吧，因为我们对于人的这样的一个。

客体的这样的一个操作，就是要么我们是自内而外的，要么是自外而内的，自外而内的，我们可以通过这个外骨骼的啊，这这外骨骼机器啊，或者说这个这个交互式的机器人，我们来实现这样的过程啊。

那么这个里面呢其实在控制的过程当中，或者说我们在学习当中，有很多的这些这个挑战哈，我以这个自内而外的这个形式，我们通过直接控制他神经活动，来使得它的这个运动功能得以重建。

来作为一个例子来看里面的一些问题啊，what are we exactly stimulating啊，当我们在里面植入这样的一个控制器以后啊，如何来刺激啊，如何来控制，那么这件事情其实是比较未知的啊。

我们植入以后，他面对了大量的这个附近的这个神经元，到底哪些神经元被激活了，哪些没有被激活，哪些有连带这些响应，这个东西不知道啊，医生也不知道，神经科学家也不知道啊，我们做这个做这个东西我们也不知道啊。

第二类问题，what is the mapping between electrical stimulation，motor function，啊对吧，这个我们的刺激到底和最终的运动功能的构建。

和这个输出之间是一个什么样的关系啊，我们的这样的一个信号，和本身大脑对于神经运动功呃，这个运动功能的这个coding，还有脊髓自己对于运动功能的这个coding，到底是怎么个关系啊，那么再进一步。

how to achieve motor function restoration啊，我们如何来这个通过这样的方式来实现一个，好的一个刺激，我们也不知道啊，所以所有的这些问题基本上都现在。

我们不能说我们一点也不了解，但是我们了解的程度，没有办法使我们充分的实现一个model based learning或者，model based optimization这样的方式啊，所以呢。

当我们面对这样的现实世界的这个问题啊，restore motor functions without clear，understanding of mechanism啊，我们不知道背后的机制是什么啊。

我们不知道前面的那些问题的，精确的答案是什么啊，那我们就要采用model free的方式啊，我没有办法给他一个很好的model啊，那这个时候我要用model free rl，同时呢历史上没有很多数据啊。

来告诉我说哎像这个玩游戏一样，前面的人是怎么玩的，我去观察一下啊，我们很多的这样的患者，很多这样的疾病啊，很多这个可能现在我们进入老龄化的，这些老年人群新出现这些问题，它是一个online出现的。

所以也就需要我们online来进行解决啊，那么我们就需要第一个入手的方式，model free online ing for learning，那么在这个里面有几个。

也是有几个critical challenges啊，刚才我们就是刚才我们几个红字提到的，第一个safety，你在online ry force learning。

尤其是在和人打交道的这些online ry forcement，learning过程中，如何来保证安全，你如何在这个过程中来获取reward啊，我们的这些reward。

大家知道你让人来给你这个填一个量表，打一个评分的话，很多人是对于这个事情，这个呃这个评分质量不是很高的啊，那么而且很多的东西是没有办法很好被量化的，我们后面会看到这个外五个控制的这个例子哈，就有些时候。

你没办法给一个非常精确的量化的评估，这个时候human preference feeback，可能是我们仅有的可能能用的这些评呃，评估的方式，我们如何来尽可能的来提高，我们优化的这个效率。

那么这本身我们会在model free的情况下，用算法来想办法把它推到极限啊，但是在后面一小部分的这个talk里面，我们看到最终解决它的方式，很可能还是在构建模型。

以及基于model base的方法来实现好，on the model free online ry for morning啊，其实它的这个最核心的一个本质，我们reducing啊。

把它约束到最核心的一个问题上，还是constrained optimization problem啊，好这个式子这个呃这个构型大家非常熟悉啊。

maximize function enough of x啊，然后呢我们面临着下面的这些constraints，这是一个非常经典的constrained，optimization problem啊。

那么在我们online reinforcement learning的时候，会有一些情况下，它会要求你的每一步采样，大家看哈，我在online来做这个concerned optimization。

problem的时候，你是每一次t等于0123啊，你每一次这个x x t啊，你对你都取一个值，你来看一下这个f x是多大，g h本身是多大，是不是符合条件，对不对。

这是我们做concerned optimization problem啊，但如果你这个东西是真实世界里面，在现实的人或者机器人上来做的话，那你要确保的是整个在优化的过程当中。

这些constraints一次都不被破坏掉啊对吧，这是安全约束的强化学习方法的这些要求，那另一类呢就是说哎在这个过程中，如果我没办法得到很好的函数值。

我只能得到human preference be back，告诉我哪个好哪个不好啊，那么这可能也是一种方式啊，那么learning with unknown safety constraints啊。

这件事情为什么会很难啊，我们这个回到教科书来看一下哈，因为从经典的reinforcement learning这个方法的构建来讲。

reinforcement learning它是一个evaluation improvement啊，一个试错和这个改进相结合的，这样的一个迭代优化的过程，而如果我们的环境当中存在。

这个未知的这些安全约束，那未知的安全约束其实破坏的是什么，破坏的是evaluation，你没有办法非常有效的非常充分的去试错，因为你可能试错一次，你的机器人就摔断了，或者是你试错一次。

你的这个人的这个用户就觉得说，我不能够再继续了啊，所以没有办法充分的evaluation试错的情况下，整个这个loop就被破坏掉了啊，所以我们说unknown safe constraints。

break the reinforce learning loop，它其实把r l的这个基本的这个架构啊，破坏掉了啊，那么我们怎么样来解决这个问题啊，其实也是过去的这个将近10年的时间里面。

一直在这个方向上来努力说，我们如何来构建一个在线的安全的，强化学习的这样一系列的方法啊，那么大家看到说哎，由于前面的这个结构被破坏掉了，那你就不能再采用传统的这个exploration and。

exploitation啊，这样的一个这样的一个桥梁关系啊，大家前面在苏浩老师的那个幻灯片上看到过诶，exploration and exploitation很好，没问题。

在simulation world里面，我们不需要考虑安全性的问题，在现实世界中我们需要考虑，那怎么办，那就要再加上一个东西，我们叫做safe expansion。

所有的你的exploration and exploitation，一定要在一个安全的区域，一个安全边界内来进行啊，而你的算法一定要怎么样呢。

你的算法一定要在exploration and exploitation的这个，这个过程当中啊，最好能去扩大你的安全边界，你一边扩大自己已知的安全边界。

一边在里面来做这个expiration and exploitation，optimization啊，那么这就能够实现一个在线的安全的这样的，一个优化的方法啊，那么这个如果大家对于这个方法感兴趣的话。

就这个方法的这个第一呃，第一个工作是是写在这本这本书的，这个16。6的这这一节里面啊，那么后续我们还把它进行了一系列的这个，拓展啊，好前面是我们说这个如何来解决safety conference啊。

尤其是online unknown safety constraints，这问题如何来解决啊，那么另一个问题我们也说了几遍，a preference怎么样来解决啊。

这个preference或者说人的这个偏好，也是在我们的这个实际的应用过程当中，我们会发现这是一个很实际的问题啊，比如大家看到大家看这个图可能比较陌生啊，但是这是可以植入人体的这个电极，长成什么样子啊。

上面的这个这个红蓝点的代表说，哎我把那个设成阳极，哪个设成阴极啊，所以两个大家看到这是两个不同的，neural stimulation这个构象啊，如果有同学对于这个脑机接口感兴趣的话，我知道说诶。

脑机接口，我们分为如何从大脑里面把信息读出来，和如何往我们的神经系统里面去写信息，这就是如何往我们的神经系统里面去写信息啊，那我怎么知道哪个，比如说这个刺激这个写入的方式啊，是98分对吧。

这个是什么89分等等的，这样的分数是很难给的啊，在现实的我们的运用过程当中，什么样的判断或者什么样的反馈，什么样的reward是比较好给的preference啊。

所以我们的问题很多时候就转化成了online reward，maximization by professy back，我的用户我的患者啊，可以告诉我说诶，当你面临两个选项的时候。

你是选择a还是选择b啊，哪个更好啊，那么这其实是一个这个系统的理论化的，来构建和解决这类问题的，一个这个初始方法叫dubandit problem啊，这个ktc的这个岳一松教授呃。

这个呃09年他和这个他cornell的这个导师们，一起一起做的这样的一个工作啊，那么我们其实在这个上面往前，又进一步考虑了一些其他的问题啊，就是如果我仍然是面临optimize。

optimizing user preference啊，那么我把人的这些反馈啊，在这个duing bandit这个setting下面来进行构建啊。

那么我们面临一些问题就是numerical feedback，unreliable啊，这个时候我们用paralyse feedback，这就是during bandit setting啊。

那么还有一个新的问题就是each preference is，a single bit of information，大家刚才看到说哎，我两个不同的这样的这种选项啊，那我如何来这个呃，这个如何。

我比较完了之后，我如何来推断说其他的另外的一个刺激的，这个选择，对于这个人好不好呢啊，那么这是我们的利用bain preference model，那我们能够把空间的连续性和这个输入的input。

space或者action space之间的这些关联性，能够进行一个构建啊，那么这是我们当时这个提出来的，这个这个可用的一个算法，以及说这个可以被证明的，这样的一条技术路线啊，呃那么呃这是在。

这是我们1516年进行的工作啊，大家看到的时候，我们其实是convergence with soft play啊，这是一个two agent problem啊，那么你一个算法可以跟自己啊。

如果它是一个rmy sorithm，它可以duing with yourself啊，那么而实现一个这种通过soft play，实现optimization的这样的一个方式啊，大家大家现在回过头来看。

说a20172018 年，我们充分地接受了这个alpha呃，这个alphago zero当时提出来说，我通过这个soft play，soft play的方式可以来学习下围棋诶。

那么我们也可以通过soft play这样的方式，其实以一个这个有理论保障的这样的一个方式，去解决online optimization的这样的问题啊。

那么来自于人的这些这个preference feedback啊，好，那我们来看说整个的这个前面的这个，方法性的工作哈，我们如何是在这个现实世界中能够得到，能够得到一些应用啊。

那么好左边state space，那我们你可能是患者也好，可能是你目标的这个人的这个对象也好啊，那么我们希望他能够恢复相应的这个运动功能，右边是我们刺激的action space啊。

那么这就是一个典型的一个强化学习，或者说在线决策优化的这样的一个流程啊，我们通过optimization algorithm啊，我们来看这个结果能够实现怎么样啊。

因为整个how to stimulate，其实我们最终把它划归成一个searching and，optimization，over large action space。

你在一个巨大的一个动作空间里面啊。

那么如何来有效的来优化，来得到一个好的站立行走。

或者说抓握的一个结果呢，啊那么这是这是这个这是我们的一位患者啊，他呢由于脊髓损伤导致，完全没有办法控制自己下身的这个，任何一块肌肉啊，啊但是呢他在这个神经刺激的这个帮助之下。

大家看到说他穿蓝衣服的这一天，其实我们找到了对他还可以的这个参数。

但是效果不是特别好啊，那随着optimization的这个过程往前来持续啊，大家会看到说这个我们后面就能够找到，对于他非常好的这样的这个刺激参数，也就是说人的这个控制的参数，那么这个学习到的参数呢。

它基本上可以靠这个东西来实现一个，完全这个独立自主的，这个这个这个体重支撑的这样的战力啊，它仍然需要它前面的这个这个，这个这个这个这个架子啊，呃它仍然需要这个架子来保持一定程度的平衡。

因为平衡功能直到今天都是一个，非常非常难解决的问题啊，啊但是他已经这个可以靠自己的这个力量啊，通过我们的这个神经控制这样的一套系统，能够让他去站起来啊，那么还有一些相应的实验。

就是说来恢复高位截瘫的人的，这个手部抓握的能力啊，比如说他这个坐在轮椅上啊，他至少开了刺激后，他可以自己抓起话筒，他可以自己来拿起来这个控制器等等啊，啊那么在行走方面啊，在这个自外而内的这个控制方面啊。

我们其实可以来通过这样的一个，这个也是其实是同样的底层的方法论啊，我们可以对它来进行这个get training和get control啊，啊这是我们在ktc的这个这个合作者一起诶。

我们如何来学习一个外骨骼的优化的，一个步态啊，因为这件事情也是一个呃你的用户，不同的人穿上这个外骨骼机器人啊，大家会看到今天外骨骼机器人也是一个比较，这个这个这个比较关注的机器人里面的，一个领域啊。

就是你不同的人穿上以后，你喜欢的这些步态是完全是不一样的啊，那么如何来使得它能够，自适应人的自身的偏好啊，这个东西很难通过我人的这个，量化的反馈给他啊。

那么我们需要这个preference feedback，那么前面是我们通过外骨骼来自外而内的，来帮助人做步态的training啊，那么我们也进行了说，哎我通过一个这个机械臂啊。

自外而内的来进行人的这个手臂啊，运动功能的这样的这种这种这种恢复的训练啊，大家知道这个机械臂机械臂在今天啊，尤其是在中国这个我们能够买到jb的成本，是他快速的再再再再降低啊，那么很可能再过不长的时间。

大家获取一个机械臂的成本，跟获取一台手机的这个成本，可能可能都差不多了，那么在这种情况下，比如说家里面有需要附件啊，这个运动功能受损，需要附件的这些老人啊，或者其他这些情况下。

那么是不是我们能够有一个这个新一代的这些，这个人机交互的方式啊，好那么前面这些其实都是model free online learning啊，能够带给我们的一些这个可能的方式哈哈。

但是我们会看到说modefy online reinforce learning啊，仍然下面我们说safety的问题，一定程度上有解决啊，model free online learning啊。

这个局限就是会非常的大啊，所以我们会从model three走向model based learning of human motion control啊，我们如何来对于人的运动功能啊。

来进行一个更加有效率的这样的一个学习对吧，控制这个运动功能，一个更加有效率的学习，这是我们在构建这些模型时候的这个目标啊，呃所以我的这个研究组也是也是过去的几年啊。

这个花了相当多的这个功夫在这个事情上面，develop high precision，personalized primal court model啊，大家看到左边的这个啊，左边这个是一个个性化的。

人的脊髓的其中的一部分阶段的一个模型啊，啊他的这个capability，他的这个能力怎么样，我们会在后面看到啊，那么同时呢我们还要构建这个一个更加精确的，尤其是更加完整的人的骨骼。

肌肉系统的这样的模型啊，刚才问大家，我们其实都不知道人到底有多少块肌肉，我们做到今天，我们也没有办法说清楚，人到底精确的有多少块肌肉，因为人和人就是不一样，而且不同的建模方法也会不太一样啊。

好我们先从这个神经的这个建模来看啊，我们是通过神经建模，我如何来说自己的模型建的准不准啊，这其实是一个非常非常tricky的一个事情啊，因为运动功能的这样的一个建模，很多时候我们这个测量比较直接。

那么神经呢也是因为我们有比较好的条件，和我们的合作者一起，可以在这些这个患者的啊，这个实验的这种过程中，我们做一些相应的数据的采集啊，那么我们一个人的神经系统的这样的，一个建模啊。

我就可以通过比如说哎大家看到这儿，我一个电极的这个触点点亮了啊，点亮了以后呢，我的模型可以告诉我说诶，不同的种类的这个神经元的，在这个周边的发放的这个发放率是怎么样，更进一步的。

相应的这些肌肉本身的这个活动的，这个活性是怎么样好，那既然能做这件事情，我就可以根据它其实来做一个close loop啊，大家注意到这是一个新的coop，它是用来做什么呢。

它是用来来优化我们植入的这个电极，到底应该长成什么样啊。

那么今天我在这里不展开，说整个的这个优化的过程啊，本质上它是一个bain autimization for the，desire of lectual rate啊，因为本身我们的模型的。

计算的复杂度是相当的高的啊，我没有办法来保证说诶，我把所有可能的这些这个空间里，所有可能的电极的设计我都放进去，让模型把所有可能的这个刺激的，这个结果都跑出来，所以还是要采用一个这个在线学习的方式。

我们去逐步的去调整诶，这个电极的这个参数是怎么样啊。

好那么我们可以对电极来做优化，我们把优化后的电极，可以来植入患者的这个这个体内啊，那么对于它来进行个性化的这些模型的构建啊，所以大家在右边看到的这两个，这就是一个特定的患者，一个特定真实的人的。

他的我们叫数字孪生也好，我们管它叫做这个他的embodied，这样的一个这个模型的构建也好啊，那么它可以干什么，它可以来帮助我们预测一个神经刺激，到底产生了什么样的肌肉活动啊，大家看到左边。

这是我们关注的这个和站立行走相关的，几个主要的肌群哈啊那么好，大家看到这是一个我可能的刺激模式，我通过这个刺激模式，后面整个的过程全部是数字化的啊，我通过这个数字化的这个模式。

我就能够学习出来说哎我这些不同的肌肉，两条腿各六条肌肉，它们的激活程度是怎么样的，好前面是一个例子啊，这里是三个例子诶，不同的这些刺激模式，大家会看到说哎我这个刺激模式，这些肌肉激活了这个刺激模式。

看着也点亮了不少这个电极啊，但为什么没有肌肉激活啊，这个时候我们的真实的这个实验，和我们模型预测出来的之间，有相当高的这样的这个吻合的程度啊，那么这也是一些相应的这个统计的数据好。

那么前面来验证我们神经建模的这个准确性啊，那么我们在肌肉建模上呢，那我们也是在过去的几年里面，我们的组里面来做了这个full body，human muscular skateful modern啊。

the control based on this model啊，我们进行了一个比较全面的，人的这个整个这个肌肉啊，还有这个运动系统的这样的一个构建，大家看到我没有超过150个。

这个reg body segment，超过250个这个joints，然后超过800个，这个这个这个这个这个整个肌肉的这些单元啊，大家注意，这个这个这个这个单元不是我们的肌肉束。

这个单元是我们在数字模型里面，可以把它拆开的这些小的单元啊，那么基于他呢，我们就可以来进行一个比较高质量的这样的，一个这个呃，这个这个人的运动功能的这样的一个描述理解，以及基于它的控制啊。

所以这是一个快速的展示一个例子，我们对于手的控，我们对于手的建模，对于脚的建模啊，在这里，因为我们是ai community，我就不放那个解剖的那些，那那那那那那那那那些结果了啊，就都是要和人的真实的。

这些解剖的这些结果去进行一定的对应啊，好那么这样的一个高自由度的，一个高复杂度的啊，这样的一个模型，我们也是可以通过hierarchical reinforcement learning啊。

大家看到hierarchical reinforcement learning，这个keyword本身也在前面两个talk里面都出现了，它确实是一个我们控制一个高维的空间的一个，有效的这样的一个方法啊。

那么它也是我们从word model到self model，最终来实现self control这样的一个路径，好最终总结我们在这个路径下呢，这个我们核心关注的是learning to move啊。

然后呢我们从model free online，ry force learning到这个model base，model based learning of human motion control。

这这样的整个的这个路径啊，好这个这个大家如果感兴趣的话。

更多的这个内容可以在我们的这个网页上，可以看到，好谢谢大家，这个非常感谢孙老师的精彩的这个talk啊，应该说我们今年呃，人形机器人是一个非常火热的话题，我们没想到今天我们的这个talk。

竟然能把人类的这样的这个运动和机器人，外骨骼还有强化学习结合在一起，应该也是非常呃大开眼界，那么下面呢我们有请这个呃蒋树强老师啊，给我们带来巨深智能中的视觉导航，那么我们讲今天的巨深智能里头。

涵盖了很多重要的任务，应当说呢这个在视觉驱动下的这个导航，就是其中大家研究啊很广泛，而且非常重要的一个任务，那么让我们来介绍一下蒋述强老师，蒋老师是中科院计算所的研究员，博士生导师。

国家杰青ccf多媒体专委会秘书长，中国人工智能学会智能服务专委会副主副主任，主要研究方向是图像，视频等多媒体内容分析，多模态智能技术和呃食品计算，主持承担了科技创新，2030新一代人工智能重大项目。

国家自然科学基金等项目20余项，发表论文200余篇，获嗯授权专利18项，先后获得中国计算机学会科学技术奖，c s i g自然科学二等奖，吴文俊，人工智能自然科学一等奖，北京市科技进步二等奖。

让我们热烈欢迎蒋老师的报告，给你查出来，好的谢谢王老师的介绍啊，也很高兴能有机会到这里来跟大家来交流一下，巨神智能中的视觉导航技术啊，听了前面三个报告啊，感觉压力很大，大家做的都很好，然后呢。

我们实际上呢是从这个巨神智能中的，这个下肢的一些呃路径规划和他的一些行为。

然后开展的一些研究工作，呃首先呢是这个研究背景啊，这一页我想就不用讲了，大家也都知道啊，然后呢这个从这个机身智能角度上来说，可能大家可能关注的很多的，实际上可能是从人工智能啊。

实际上关注更多的是这个离身的智能，我们做一个机器学习的算法，然后的话啊做一个这样的问答等等的话呢，实际上是一个简单的输入和输出，但是呢巨神智能实际上是要有一个本体，然后的话他在这个环境中。

然后来进行一个呃一个交互啊，所以的话呢，就是它应该是一个巨神化和情境化啊，巨神智能呢可以和真实的世界交互来完成任务，就是这里呢我拿一个语言为例吧，就是我们说的任何一句话，它实际上都是啊在这个环境中。

或者是在这种琴颈的一个上下文的一个一个下，面，可能对它的理解可能才有一定的意义，所以的话呢就是在很多情况下，就是我们的人工智能的这些任务啊，这样的一些技术，实际上呢都是和我们的实际上。

下文都是啊紧密的相关的，当然从巨神智能这个角度上来说呢，它的内涵可能是更加的丰富，它实际上是要有一个巨深的体验，有一个巨深的反馈，有一个巨深的学习，有一个巨深的增强。

然后的话来完成一些跟自身有关的一个任务，就像我们小孩子，就是我从来没有见过这个东西，我把它不断的来学习，来提升我们的能力一样啊，当然跟它相反的，就是我们这样的一个简单的输入和输出啊，这张片子呢。

实际上是从最近的一个所谓的文章中拿过来的，我来呃做一下示例啊，就是呢我们现在很多做cv的，可能呢都是给一张图像，然后呢我们可以做分割，做检测啊，做分类都可以啊，包括的语义分割呃，但是这个巨神智能呢。

实际上它更强调一个动态性，就是我们在一个环境中，然后的话来不断的观测啊，不断的决策啊，不断的来得到反馈，然后再完成我们的一些相关的任务啊，呃当然从这个角度上来说呢，就是呃他有一个这个摩拉维克的这样。

一个悖论了，就是它的一个基本基本的一个意思呢，就是说我们可能呃就是啊很多这种简单的输入，输出的这样一些问题，可能我们可以回答的很好，但是呢一旦涉及到行为，就是感知，认知和行为一旦结合在一起。

可能现在的这个人工智能的能力，可能连个一两岁，两三岁的小孩子可能都还达不到啊，他实际上需要这种巨大的计算资源，需要呢我们对很多这种任务的这种复杂的一个，结合等等等等，刚才呢呃这个苏老师也讲。

这个internet ai这一块呢实际上是非常火热的，它实际上可以说是这个，离身智能的一个典型代表，实际上呢他也非常伟大，我觉得也非常有用啊，但是现在呢大家也逐渐的在关注啊。

巨神智能可以说呢是和呃这个internet ai，我认为呢是和一个并驾齐驱的一件事情啊，当然它呢呃可能未来的空间可能会更大，然后呢，我们想象的这样的一个可能性可能会更多，当然呢给我们带来的挑战也更大啊。

我至少我现在认为吧，就是从巨神智能这个角度上来说，可能才刚刚开始，可能很多任务才刚刚被设定出来，或者呢可能他刚刚被初步的设定出来，因为在我们这种复杂的这种，真实的物理世界中啊，怎么样让这种智能能力。

真的能够满足我们人类的需求，或者说呢能够达到人类的这样一个能力啊，就基本的这样的一些行为能力啊，我觉得还有很多的工作实际上需要做的，就是从这块来说呢，就是巨神智能呢。

它实际上还是呃以这个多种任务相结合的，这样一个事情啊，就是我们需要这个做这个呃听觉啊，需要有视觉啊，同时呢也需要有语言的理解啊，有记忆啊，也有导航，然后的话有动作，包括有反馈，当然现在呢。

我们实际上还是在一些具体的任务上来来做，包括我今天汇报的啊，视觉的导航，包括就是像很多我们三维物体的理解啊，包括可能视觉和语言的，就是叫interactive的q a等等的话呢。

实际上都还是很多具体的任务，但是真的像像人一样这样一种啊，相当于啊这种能够全面的这样的一种智能能力，实际上还有很长的路要走啊，这一块呢，实际上是这个，我们肯定是需要有一个智能体来做支撑的呀。

这一块实际上包括人形机器人啊，包括很多机械臂啊等等的话，实际上现在都得到大家越来越多的关注，这也是我们可以开展这个方面的，一个重要的基础，当然机器人可能只是他其中一个重要的方面，但是也不仅限于此啊。

包括天上飞的啊，包括水里游的对吧，包括可能我们这个周边的，可能其他的一些啊东西有可能都会啊，对我们这个剧他都可能会有一定的局限性吧，当然从现在的研究来说的话呢，实际上我们啊就是说的low一点啊。

从发paper的角度，可能现在大家还是在这个虚拟环境中，可能做的比较多啊，呃这个呢可能也是，由于我们现在这个得到大规模的训练数据啊，不容易啊，然后呢得到的这种多样性的反馈和交互啊，也不容易呃。

同时呢构建这样一个可以同台并同台竞技的，这样一个评测的标准和benchmark啊，也不容易啊，所以的话呢现在就是很多的工作，实际上都是在这种虚拟环境下来做的啊，但是呢我们肯定还是需要从虚拟环境走向。

真正的啊这种我们的实际环境，把它怎么样迁移到真实环境中，也就是seem to real这一块呢，实际上也是目前学界关注的一个重点，当然这一块呢实际上是特别特别的火了哈，我们实际上关注这方面的研究工作呢。

差不多是呃，就是当然对这个问题了解是比较早了，但真正的就是着手开始做，差不多是在19年左右吧，19年119年左右，但是呢呃当时也没想到后来会这么火，但是今年的话实际上大家就关注度特别高。

当然同时呢这里有一个就是相当于其他一个，关于巨神智能的一个调研的文章了，说这一方面是发的论文，是成一个指数级的指数级的增长啊，呃当然这里只是一个一个这个数据了，但是在我看来呢，我觉得这个事情。

实际上确实需要得到大家的关注，因为我们真正讲的这个智能，他肯定不是一个点上的智能，而是一个各种能力相结合的一个智能，或者是两三个能力，或者一个综合的能力的相结合的一个智能，这个方面的话呢。

他肯定是离不开我们的感知，我们的认知，包括我们的行为，特别是我们的行为，实际上它是反馈我们对环境的理解，和对我们一些推理能力的一个重要的方面啊，就举个例子啊，就是我们可能跟一些人在交流哈。

我们这个有的人可能说的话可能让我们高兴，我们就会笑，让我们不高兴的，我们可能就会沉默，或者稍微的皱皱眉对吧，这种的话实际上就是我们对这个画的一个理解，然后呢我们学习这个画之后呢，我们肯定还有我们的反馈。

所以的话呢我我个人认为这个人工智能的话，它的未来的发展方向，这个巨神智能是必不可少的，当然现在的话呢，实际上在国际上也有很多这方面的研究呃，特别是在这种模拟器上啊，包括一些相关的任务上啊。

不管是它的上肢，它的下肢啊，他的这种和语言相关的一些交互等等的话呢，实际上都有很多相关的工作啊，然后呢这里是有一些呃benchmark啊，就是像什么ai套，就是做导航哈。

包括现在最新的右下角那个protocol，还有1万个房间，实际上也是做导航，还有一些其他的呃，这里呢实际上也就像我们做cv的那个coco啊，image net啊，实际上呢在这上面你玩的比较赚了之后。

也可以得到一些结果，然后的话也可以发发论文，实际上就是现在也很卷，我觉得就是如果要达到这个soa的话也不容易，但是呢毕竟还是现在可能才做的，可能现在人没有那么那么多吧，这已经开始有一些了，当然了。

这个事情未来肯定是要满足我们真正的需求，真正的需求包括他的下肢能力，他的上肢能力啊，啊这里呢实际上是举了一些例子啊，时间关系呢我不展开的说了，就举一个例子，就是像这个归纳归纳还原。

就是将来的话就是在一个房间里啊，如果有一个东西它不应该放在这，就举个例子，这个东西它就不应该放在这是吧，它应该放在这个地方，那么你就可以把它找到，然后把它放到它该去的这样一个地方。

在这个里面呢实际上就涉及到一些综合的能力，包括啊它的一个导航的能力，它的视觉视觉这个相当于视觉导航，它的记忆能力，以及它的这样的一个相当于啊，移动和它的这样的一个上肢的一个抓取的能力，等等啊，都是有的。

另外呢还有一个任务是这个视觉语言导航，这个呢就是给你一句话啊，举个例子，我来到这个来到这个地方，我应该怎么样进入这个房间，可能有人跟我说啊，王鹤老师跟我说应该怎么怎么走，那么我就会按照这个指示。

然后看到一些关键的一些节点，然后就会跟他的语言结合起来，这样就涉及到一个视觉语言的匹配的问题，然后我再去呃，呃就是决策我的规划等等，这里也有一些相关的工作了，另外呢这个关于巨神智能呢，现在肯定离不开。

我们现在大家关注的这样一个计算的资源，我们在学术界肯定卡不是特么那么多，但是呢这个事情还勉强可以做一做啊，就是当然跟那些做大模型的呀，那些肯定没法比，但是呢现在至少在目前那些任务上。

还是可以有一些结果的啊，当然另外一个方面呢，从虚拟到现实实际上还是非常困难的啊，因为你在虚拟环境中可能能得到不少的结果，但是呢你在真实环境中，那完全是另外一回事，因为我们实际上也在真实环境中。

也试图搭建一个平台，我后面也会跟大家来介绍呃，但是呢它里面就是在边缘设备的这样的一个，适配的问题，包括这种里面的噪音的处理的问题啊，甚至包括那个机器人他可能走得不稳，可能会颠簸的问题啊，等等的话呢。

这些在这在那个模拟器的环境中，实际上都是没有的，所以的话呢就是在真实环境中真的能让它啊work，实际上还有很多的工作啊需要做，当然毋庸置疑，这一块肯定是有广泛的应用前景的，不管是在哪个行业啊。

什么方面肯定都是呃有广泛需求的，这个我就不花时间来讲了啊，呃对这一页是最近新加的一页ppt，就是多模态大模型嘛，你既然讲人工智能是离不开这个事情的，但是实际上也没啥讲的，简单一句话呢。

就是现在这个g p t拆的gp和gt four，肯定对我们的冲击力特别大，但是呢这个东西实际上呃，可能对直接的这个巨神智能，可能它的这个作用可能还相对有限，当然另外一个方面呢。

从这个大家也非常关注这个呃，面向具身智能的大模型或者中模型，或者简单一句话来说，就是这种pretra的模型，是不是能够对各种剧身智能的任务来产生帮助，不管是在具身智能中的一些跟视觉表示有关的。

预训练模型，还是跟视觉语言行为结合在一起的，包括在模拟环境中的数据，包括在真实环境中的数据，包括它们综合在一起的数据的联合的训练，这些是不是会对巨神智能的各种任务，是不是会产生帮助啊。

这些呢实际上还是有很多值得探索的空间，包括我们也试图想前前2年吧，我们试图也想训一个，就是把行为，视觉语言结合在一起的这样一个预训练模型，但发现没有那么多机器，后来想想就就算了。

对当然这个是谷歌做了个工作，实际上它还是非常好的，然后下面呢就报告一下，我们在视觉导航上的一些相关工作了，这个导航我们肯定都知道啊，就是包括刚才我来是用高德地图导航对吧。

然后的话天上的卫星实际上它也需要有导航，包括关岛啊，无线电啊等等，大家都知道，但是呢现在在剧身智能里面呢有一个呃任务，就是和导航有关，包不不管是叫这个appoint based。

就是点点点导航还是物体导航，还是视觉语言导航等等，都是都是的，它实际上呢就是在一个开放的环境中，然后给你一个目标，然后让一个智能体走到它该去的那样的，一个一个位置啊，就是我们人一个简单的说。

就是一个找路的这样一个能力啊，当然这一块呢肯定是我们人类赖以生存的，一个非常重要的方面啊，要不的话这个敌人来了，你跑不掉对吧，你不知道该往哪跑是吧，这个肯定是不行的啊。

当然对我们智能系统来说肯定也是非常重要的，这个也不用花时间去介绍啊，而传统的这个导航呢，就是从机器人的角度上来说呢，它实际上都是要建好图的，就是像slam啊这种方法，包括我们在酒店里。

在餐厅里这种自动的送东西送送送菜的这一块，呃但是呢我们这个在做视觉导航呢，实际上更多的是关注这样一个位置的环境，没有建图啊，纯粹的通过这种视觉或者通过机器学习，包括强化学习的办法。

然后来实现一个他自己啊，自动找路的这样的一个一个能力，就像我从来没有来到过，咱们这样的一个会议中心，我怎么样去找到这样一个房间啊，我需要有哪些能力啊，基本上是这么一个事情啊。

他肯定呢前期也是需要训练的对吧，我不可能啊，没有任何先验知识，我虽然没有来过这个地方，但是的话呢我肯定我之前去过很多的这种，类似的这样的一个会议，大清我怎么样去找，我肯定是要是要学一些东西的。

然后呢我还要跟根据我当前的观察，然后来判断我应该怎么走对吧，所以呢他应该有一个前期的学习，另外呢它还有一个当前的观测啊，他一个基本的一个架构呢，实际上他也是一个enter to one的一个过程啊。

这个实际上也没什么特别新奇的新奇的东西啊，包括我们的视觉编码对吧，包括呢它实际上呢还有一个相当于呃它的输出，实际上就是啊不是有像图像分类似的，是一个标签，而是他的一个动作，不管是左转还是前进啊等等等等。

另外呢它实际上还有一个强化，一个蒋丞的这样的一个机制，有一个reward，不管是正向的还是负负向的，它的一个基本的架构实际上是这样的，呃当然基于这种强化学习的这种视觉导航呢。

实际上要考虑各种方面的事情啊，啊包括就是要需要前期足够多的数据啊，啊包括呢就是我们对视觉表示，然后要有啊这样的一个比较强的能力啊，包括用这种预训练的模型啊，另外呢我们的训练方式也要考虑多任务啊。

利用这种啊matt learning的办法啊等等，实际上都是可以对这个事情起到一定的，支持作用的啊，对视觉导航来说呢，它实际上就像刚才讲的给另一个啊目标，然后的话在一个环境中没见过的环境中啊。

然后呢根据你输入的啊这种视觉的数据啊，然后怎么样来找到我们的这样一个目标啊，所以呢它的输入啊，它的输入呢基本上就是像这种视觉信息，当然也可以有其他传感器，包括有深度信息等等哈。

然后呢还有这种我们的目标到底要去哪里，然后的话这种语义，然后来支来支持我们，怎么样去找到他想去的位置啊，所以呢在这个方面呢，它需要就需要考虑，怎么样在做位置环境下的这样的一个啊，视觉感知。

这里的话呢实际上我们的很多视觉能力，不管是物体检测啊，还是分割等等的话，肯定还是有有有帮助的啊，包括这种开放不开放环境下的标签等等的话，另外呢还有这种未知环境下的这种路径的啊，路径的规划啊。

另外呢还有这种多多智能单元的这样的一个，协同决策等等，这样的，当然这一块的话，肯定还是有很大的这种应用需求的，特别是在这种开放的没有见过的环境中，举个例子是一个野外环境中。

怎么样去完成一定的任务啊等等啊，对当然从国家需求上来说也是需要的啊，呃我们前期呢实际上是做过一些呃，做过一些工作，实际上从机器人的交互上，实际从17年就有一篇文章。

然后的话呢实际上是从1119年开始做吧，然后后面开始陆续的有文章，就是做一些视觉导航啊，视觉语言导航等等一些相关的啊相关的工作啊，呃从视觉语言导航角度上来说呢，从视觉导航角度上来说呢。

他现在的技术就像刚才讲的，有个也是个encoder decoder的这样一个过程，大家看到这个基本的一个感觉，实际上你是跟做个图像分类啊，跟做个image caption也没啥区别啊。

它实际上就是给他做个视觉编码，然后的话给他输出，它实际上它就是一个一个行为，它无非就是加了一些跟这个强化有关的，一些东西啊，但是它存在的问题，现在主要还是一些黑箱的一些操作的事情。

当然前期也有一些用先验知识，然后来做一些相关相关事情，但是呢在这种情况下，就是这个先验知识怎么样来构建，怎么样它能自动的更新，怎么样来学习这种物体，物体之间的这种关系。

以及它大范围的这样一个尺度性的信息，实际上还有很多的问题需要考虑啊，对啊对，这是我们就是还是我们做了几个工作啊，就包括这个啊就是构建场景图，然后的话包括多目标的导航。

包括这种instance level的导航，就是说呃就是说就是这是一个举个例子，电子设备，它另外这有另外一个电子设备，他们两个虽然class一样，但是他们instance是不一样，是怎么做的。

另外呢还有这种相当于啊新目标的导航，就是zero shot的这种导航等等的话，呃下面的时间关系我可能就很快的，然后来汇报一下，我们在最近的几个工作吧，第一个呢就是怎么样来构建一个场景知识图。

然后来进行这样的一个物体导航啊，当然这一块呢就是也有一些所谓的生理的，心理的一个依据了，就是人的场景的一个识别的能力，跟他场景记忆的能力，实际上它是有一个互补互补的这样一个机制的，简单来说呢。

就是我们这个思路的话呢，实际上就是我们来构建了一个，层次化的这样一个场景图，就是包括这种物体啊，还有他的一个sub zone，和他的这种整个场景，这样的一个呃层次化的这样一个场景图。

然后呢来作为我们一个先验的学习的，这样一个知识图来指导我们在新的环境中，然后来进行导航啊，就举个例子是什么呢，就是说我们啊要找一个对，要找一个锅，那么呢我们前期实际上可以学很多知识，就是这个锅呢。

他应该在一个什么样的一个房间里，他可能在呃卫生就在厨房的可能性比较大，然后在厨房的什么位置上的可能性比较大，我们就可以学一个这样的一些知识图，但是它只是一种可能性的这样一种图了。

然后的话呢来指导我们后面来呃，在根据当前的观测再给它结合在一起，然后来给它进行一个视觉表示，然后来帮助我们去做导航啊，对这里就是我们的一个整体的一个流程图了，就是把我们这样的学的这样一个层次的图。

然后怎么样来嵌入到一个当前的这样一个表示，以及它的一个视觉输入录取，然后来帮助我们去做导航这样的，然后呢这个就是我们的一个呃整体的一个思路，就是我们啊就是它这个底层，实际上就是物体和物体之间的关系。

然后中层的话呢就是相当于一个啊，这个相当于一个子区域，举个例子，就是像那个厨房的一个灶台和他的一个，举个例子，洗手盆之间的这样一些区域，之间的这样的一些关系，最顶层的话实际上就是它的一个场景节点了。

对这里是我们建图的一个呃一个过程，就是呢它实际上通过这样的一个呃，通过一个这样的一个聚类，然后的话来建立这种典型的物体分布，然后边的话呢就是这种区域之间，相邻的这样的一个可能性，然后呢这是其中一个环境。

然后呢一旦有多个环境，我们要要多个学呢，就涉及到这种在场景层面的，就是这个cvs的这样的一个图，匹配的这样的一个啊一个工作，来得到一个啊对应的节点和边，然后来给它进行融合啊，然后呢有了这个呢。

我们实际上就可以来给它进行一个导航了，然后诶对，然后呢我们就可以给它进行这样的一个啊对，然后呢我们就可以给它进行路径的规，路径的规划，然后搜索这种最优的路径，然后的话来不断的去呃利用当前的知识去查找。

然后来做这样的一个行为的决策啊，然后呢我们这个图呢可以在这个学习过程中，它还可以不断的去进行更新啊，这个就是我们这个评价的一些方法了，都是在模拟器上，实际上这都是一些benchmark的一些东西。

就像刚才讲的，就是类似midnight coco啊这样的，在做图像分类的很多的这样的一些任务，大家如果想关注这个任务的话，也需要在这上面发发文章什么的，如果的话是需要需要有一些评测，基本上是这样的。

这个是21年的一个工作，他当时性能应该也还可以了，对这个时间关系这些就就不讲了，由由于我们加了一个这样的先验图呢，所以它会避免一些cos在视角，或者他有一个这种原地打转啊等等，这样一些情况啊。

然后呢第二个工作呢是我们最近的一个工作，就是我们基于前面那个工作呀，我们加入了一个啊因果分析啊，简单来说的话呢就是加入这个场景图呢，它不一定对啊，对这个可能在这对加入这个东西。

它实际上它不一定是对我们有直接的作用，是什么意思呢，我们前期学的这样一些经验，他你用上来呢，他有时候可能不一定起到好作用，因为呢如果跟前面的呃，就是跟前面的这样的这些环境，如果是比较熟的话。

就是已知环境和位置，环境如果比较类似，那么这个经验就会发挥正正面的作用，而如果布局差异比较大呢，他这个经验反而会起到一个负面的，负面的作用啊，所以的话呢我们就怎么样来考虑，能够自适应的。

合理的利用这样的一个前期的经验，这个s的话呢就是我们的观察，然后呢这个g的话就是我们的目标a，就是我们要做的这样的一个执行的动作啊，呃因此的话呢我们就利用了这样的一个呃，因果学习中的这样的一个思想。

然后用这种反事实，然后来解解耦出这种经验的这样的一个影响啊，这个街舞经验的影响呢，他有点像这个反事实的这个思想吧，他是怎么做的呢，实际上就是考虑，我们就是前期学的这样一个布局，跟我们当前的这样的一个呃。

观测的这样一个环境的布局，它们之间的这样的一个差异啊，时间关系呢它实际上就是我就要快一点，就是这个地方有一个他们一个差异，然后把把这个差异呢，然后放到我们的这样的一个反事实的这样一个，学习框架中。

然后来去除它负面的这样一个经验的影响，然后的话呢让他如果是新环境的话，没见过的环境，那么我们就少用过去的经验，如果是跟之前的环境比较像的话，那我们就多用之前的经验，差不多是这么一个思想啊。

这里呢是我们一个整体的一个流程图，它呢实际上是对这个呃，现在的话呢它实际上是可插拔的，它实际上对于现在就是各种的这样的一个，导航的框架，都是可以计算到里面去的，这是我们的一个一些相关的评测吧。

一些数据集呃，然后时间关系呢我就简单说一句话，就是呢他对这种布局差异比较大，就是跟前期如果没有见过的情况下，然后呃就是我们的性能可能会提升更大一些，在这里有一些实验结果啊，时间关系就不展开说了。

这里还有一些过程的可视化，然后最后呢我们在汇报一个工作呢，就是我们做这种多目标的导航，就是前面介绍的实际上都是他只找到一个物体，但是呢让他找到多个物体的话呢，我们就要考虑就是我们前面走的路是不是会对。

后面要找第二个物体，第三个物体的时候，它是不是会有帮助，所以呢他要考虑多任务之间的，这种长期的一个规划的能力，来提升它这个导航的这样的一个效率啊，因此的话呢我们的一个主要的一个想法呢。

就是来探索呃这种存储探索库的空间，然后的话来构建这样的一个啊语义图，然后的话呢再利用啊知识和数据双驱动，这样来形成一个长短期的这样一个，自适应的策略，来提高它这种导航的效率啊。

对这里是我们的一个基本的一个框架了，基本的一个框架，它实际上包括就是这种相当于一个空间的，这样的一个记忆机制，然后来建立空间语义图，另外呢我们还要根据当前的这个观测，然后的话呢来做一个预测。

最后的话呢再给它有一个门控机制来呃，来决定来决策他后面是一个长期的，还是一个短期的这样一个策略啊，包括就是这里面就包括这种空间的这样的一个，语义的这样一个记忆的记忆的机制啊。

啊他这个呢实际上就是现在这种用cv的办法，然后来构建这种空间的一些啊语语语意图，然后来给他这个构建一个这样的一个，前期的这样的一个知识表示啊，呃另外呢我们可能还要啊考虑。

就是用它这种数据的这种驱动的策略，然后的话呃，通过强化学习的模型来学习这种空间的这样的，一个呃一个表示，然后来预测目标的这样一个潜在点啊，后面呢我们再用这种门控的机制来筛选，这样的一个导航策略。

它有一个长期策略，一个短期的策略，来给他进行一个下一步的一个动作的预测啊，然后呢这个就是我们的一些评测啊，这个是在呃，这个json和和那个和这个什么medical的3d上，然后来做的一些相关的实验啊。

对这是一些实验的实验的结果啊，然后和现有的方法相比呢，它实际上就是我们考虑了这样的一个，前期的经验，所以的话它的路径的规划实际上会更短，然后最后还有两分钟的时间呢，我给大家汇报一下。

我们从模拟器到现实环境中去迁移的，一些相关的工作啊，呃当然这个发论文发论文是一回事，然后真的要搞一个这样的环境，真的是要得有一个这样的一个呃，就是我们构建了一个一一个，140多平米的这样一个环境。

然后呢，这个环境呢它实际上是可以动态变化的啊，就是一会我会讲，我们也有一个这个local boat的一个机器人，然后来做这个事情啊，然后当然要做的话呢，有一个事情就是他seem to real。

就是他这个表示，实际上是需要有一定的迁移性的，就是你在虚拟环境下的表示，他肯定不能直接用在真实环境中，所以怎么样能够让他们这种进行一定的适应，实际上也是需要考虑的。

当然你也可以真实环境和虚拟环境联合去训练，training啊，也是可以的啊，这里面的话呢，就是我们相当于构建了这样的一个呃，就是呃相当于一个建图的，这个相当于是构建一个场景的一个，碰撞图的这样一个机制。

然后的话呢我们在真实环境中呢，实际上就是呃来建了一个demo，就是说是能够在任何一种环境下，任何一个位置，他都能找到我们想要的那个目标，来规划他的这样的一个行为行为路径啊，就是我看看啊。

它这个呢就是我们这个户型图啊，它实际上是可以随时改的，就是任何的物体它也都是可以随时改的，对这里也是一些相关的，就是去找杯子的一个demo，这个时间关系我可能就呃不给大家来展示了。

然后这里呢实际上我们是希望将来能做这种，更复杂的交互加上人脸识别啊这样一些能力，然后他能够就是实现把东西送给谁，这样的一些相关的任务啊，啊然后包括在一些有障碍物的情况下，我们也能实现它的这样一个目的啊。

包括就是它可以在这样一个环境中，在新的环境中，它可以不断的就是来迭代呃，就是一轮一轮的来提升，然后让他的这样的一个学习能力，会逐渐的越来越好，就是说叫边导航边增强是这样一个过程啊，然后呢。

我们前期一些工作实际上也是用在了一些地方，包括外骨骼机器人啊，包括一些服务机器人等等，最后是个总结展望，就是呢现在呢我们认为就是这一块呢，实际上呃确实有很多工作需要做，但是难度实际上和挑战还是挺大的。

呃做导航这件事情呢，实际上也是一个非常非常具体的工作，可能呢现在可能还处在研究阶段吧，然后真的在开放环境中能够找到一个物体啊，它包括它的视觉能力，包括他的规划能力，包括他的学习能力。

实际上还有很多工作需要做，另外一件事情呢，就是这个seem to real也有很多需要考虑的事情啊，时间关系就不展开说了啊，另外呢，我们这种大模型肯定是我们非常重要的一个呃，非常重要的一个工具。

但是怎么样用在这种呃这个巨神智能里面，肯定还有很多需要考虑的地方啊，啊呃未来的话肯定是值得期待的吧对吧，这个时间关系我就不展开说了，这是一些合作者和我们发的论文，好谢谢大家。

这个非常感谢蒋老师给我们带来了，这个具身智能呃，具身智能中啊，重要的一些任务的这个前沿进展，那么我们下面呢就开始我们的panel，discussion环节，你拿个快做，上来就来做做爱时先生吧。

有没有因为他们是一起的，要么搬开不行，不知道可以换，好那么这个呃感谢再次感谢啊，四位嘉宾给我们带来了这个异彩纷呈的四个，这个talk呃，涵盖了我们剧深里头很多方面的精彩的呃问题，和一些前沿的进展。

那么下面呢在这个圆桌讨论的这个环节呢，我们将去呃，我们将根据具身智能的一些啊新的这个特点，和我们人们关心的啊，通用的巨神智能体，据称大模型这一系列重要的问题展开讨论，也欢迎呢这个台下的听众呢。

积极地参与到我们的这个圆桌讨论当中，那么呢我呢也是这个啊抛砖引玉啊，从这个就是今天这么多嘉宾啊，这个介绍了这么多学术和研究成果，那么我们呃想先讨论的第一个问题，比较泛一点对吧。

就是啊那么相比于之前的一些，我们讲离身智能也好啊，这个internet a i互联网智能也好啊，那么具深智能到底引入了哪些新的研究，问题和挑战，那么呃我们要不然就这个从苏老师啊来。

可以先讲一讲啊，好嗯这是一个挺难回答的问题，我感觉很对啊，但是从我的观点来说呢，我会认为这个啊就是数据的引入，让大家必须要思考，怎么把这个感知认知和行动给他耦合起来。

对这个耦合呢就是我们面临的我心目中啊，这就是我们面临的一个，这个最大的这么一个挑战啊，这个耦合的核心呢，其实在问对世界怎样的一种建模，是最有效的建模，那么尤其是如果这背后呢。

有所谓的这个叫这个这个新的概念的涌现，这件事怎么弄，对吧啊，你当然可以说用传统的方法这个啊，gradient descent，你说这个就不叫概念涌现了吗，那么问题在于这样的啊，分布式的一种表示。

在多大程度上还可以支持推理，可以帮助你实现好的组合泛化，也就是说这样涌现的概念，在多大程度上要变成symbolic的，那么如何能够把这个涌现的概念变成symbolic，呢对吧。

那么这个这个这个连续的梯度下降，怎么能跟自爆这个结合起来，我觉得这是一个可能从理论上很本质的，这么一个不太确定的地方，可能有些其他的我可以把这个一些别的挑战，就跟别的老师来讲，确实比较难回答一个问题啊。

从我的角度来看的话，因为现在的话fdation model比较火，那么具生智能的话，fdation model相当于是把数据变成了知识对吧，尤其是large language model的话。

它其实就是学过了我们所有可能，互联网上所有的数据吧，那么他其实对于一个具体的环境的话，因为它只是语言，语言是一个抽象的表示，那么抽象它的泛化力强，就表示他对一个具体的东西的话，他不能够描述的很细节。

那么对于large large model来说，把它融入到具生智能的话，它需要适应这个环境对吧，他需要在这个环境上面再去积累，关于这个环境的一些具体的，巨生的一些表象对吧，它或者是具深的知识吧。

如何在这样的啊这online interaction的过程中去让啊，不管是los anguard model也好，还是visual language model也好，让它融入到哦环境中。

不管是虚拟环境还是现实环境，我觉得是啊需要下一步解决的问题，挑战的话可能啊，另外一呃挑战的话还有一个一点吧，就是因为我我个人的观点，我是把这个large language model。

认为它是一个word model的一个抽象的表示吧，因为我们语言的描述的话，其实很多很大层面上就是描述的物物理世界啊，当然除了一些其他的之外，大部分都是描述物理事件，那么它是一个也是一个抽象的表示。

那么在剧生的时候，如何从一个抽象的物理世界，到一个具体的物理世界，那么如何学习一个啊输入是visual的这么一个，input的啊的世界模型吧，如何把它结合起来。

去真实的从一个啊文本的或者symbolic的表示，让它具体到啊每一个pixel上面，我觉得这个word model就是基于visual information word model。

可能是我们接下来要做的也是有挑战的事情，好谢谢，对，我觉得这个呃卢老师谈到的就是说呃，我们现在有了机器人，那么我们在这个呃巨深机器人的学习当中，很重要的一点呢是引入这样的一个world model啊。

那么呃这样的一个概念，就是能不能让卢老师可以在啊这个阐述一下，你觉得这样的word model为什么在过去的一些，比如说我们讲internet ai时代，它并没有那么的重要。

那么现在呢啊这个包括这个ya queen等等啊，图灵奖这个得主，在一系列重要的这个报告当中呢，反复谈这个世界模型，那么它对巨深智能带来了哪些，这个的它的意义是什么，它的研究问题是什么啊。

因为这个word model的话，其实出处就是怎么说呢，从强化学习的角度来看的话，因为model base的rl它本身就是word model对吧，只有model去做一些planning等等。

因为之前我想从比如说internet的的ai的任务来讲的，话，从cv的任务来看的话，他其实没有涉及到，比如说决策的这一部分对吧，如果我们接下来要做的是屈伸智能，我们要去考虑的是每一步我要做什么动作。

那么这个时候啊从强化学习的角度来讲，它就是可以用比如说基于word model base的方法，或者model base rl的方法去做去做planning，我觉得这是我可我自己的一些浅薄的理解吧。

我这地方补一下，因为我们组做了很多的这个这个model based style，那么有什么问题呢，就是说嗯internet ai时代你做前向预测对不对，那么预测完了之后对错你是很难讲的对吧。

他就是让人看一看到了具身智能的话，这个事他有很大的问题在于所谓model bear啊，它是要在一个world model，它是要跑很多步，这个过程它会有误差积累了。

那么而且呢从一个确定的这个这个初始状态，世界，它是随机的，所以呢其实你这个world model，它必须要做到是一个long horizon的一个，generative model。

具备uncertainty，而且还要这个这个它的它的distribution，还要correct这样一个东西，那么在在具身智能之前，他哦几乎都是无法验证的，但是自身智能的话它是可以的。

因为最后它好或不好，它将决定task success rate，对对我觉得这一点上我也是这个嗯，非常同意两位这个老师的说法，因为我们人的学习呢本质上是一个perception，action loop。

也就是说当你在感知这个世界之后呢，你要根据你的感知呢，去这个执行一个您认为有效的行动，那么这个行动呢将进一步的改变这个世界，那么刷新这个世界的状态，那么你在重新去进行perception。

所以在这样的perception action loop当中呢，你当你去这个去想，去take一个action做一些行动的时候呢，如果你能对这个世界进行建模，那么你就能预先知道，那么我做这样的一件事。

我去碰这个杯子，到底是能把它拿起来，还是会把它打翻，那么这样的事情呢，对具身智能体在复杂的长城的交互当中去，怎么样去做正确的交互学习，和怎么样去选择正确的交互方式，都是非常重要的。

所以我们看这个world model，可能在具身智能当中会被一呃，作为一个聚焦的一个问题去研究，那么呃这里头其实也引入了，就是刚刚这个孙老师这个讲座的时候，的一个问题，就是说我们具身智能当中。

其实经常有这个safety安全性的考虑对吧，那么呃我想让崔老师也谈一谈，就是这个具身智能与安全，或者是从您的角度上讲，有哪些引入的新的问题，在之前的这个呃智能时代是没有被充分考虑的，啊，好的谢谢啊。

我就接着这个问题我谈呃这个两点，我自己的这个这个感想，不一定是对于这个问题的回答，很有可能是给大家提出了一个新呃新的问题哈，一个是关于巨神智能相关的这个新的研究问题。

一个是挑战啊啊那么我不知道在座的各位，就是大家是最早听到巨深智能或者是具身性，这样的一个描述是在什么样的一个场景下，是在计算机科学，人工智能的这个领域里，还是在其他的什么这个领域里啊。

这个因为对于我来讲的话，我最开始认识这个词是更早在哲学领域里面啊，就大家如果往回翻说诶在哲学领域里面，这个来谈这个具身性啊，还有甚至是这种就是巨深的这些智能的，这些表象，好像是比我们。

至少是比我们这一轮的这个巨神智能，在人工智能领域里活起来要更早的啊，那么这里面其实有一个很有意思的现象哈，大家会看到说，随着我们自然科学和技术的往前的进步，哲学是在退守啊。

哲学在越来越退到一些这个更小的一些领域里，比如自然哲学的数学原理对吧，大家知道是知道这本书是讲什么的，牛牛顿的嘛对吧，自然哲学的数学原理，讲力学，讲这个讲物理学的，后来有了物理学。

我们就不再管它叫化学等等，我们就不再管它叫做这个自然哲学了啊，那么哲学领域里面还有一个这个科技，哲学里面就是非常有名的，前面有一本书叫做这个计算机不能做什么啊，可能我们计算机专业的。

有些同学如果对哲学感兴趣的话，会看到那本书，这是大概五六十年前吧，可能是那个时间呃呃呃可能没有那么早啊，几十年前反正说诶这个计算机能力很强，他但是他不能做什么啊，哲学家认为说有些事情计算机是做不了的。

人是具有这种独特性啊，这这些，然后过了些年，计算机发展很快啊，那么哲学家又写一本书，同样一个哲学家叫做计算机，仍然不能做什么啊，啊带大家看，感兴趣可以看一下这这两本非常有名的书，计算机仍然不能做什么。

这本书当时里面的那个仍然不能做什么，今天又有大量的被break掉了啊，所以其实结合着哲学家的这些思考，还有具身智能的这个概念在哲学里面的更呃，更加的这个早的这些提出，其实在座的各位。

如果大家想找新的研究的问题，尤其是跟我们人工智能的研究的问题，可以去哲学家现在描述的这些，这些仍然健在的这些领域里面去去找一找，可能会找到一些这个这个有意思的东西啊。

所以本人巨人智能相关的这个新的研究问题，一定和这个里面会有些关联啊，那么挑战方面，其实刚才刚才其实这个呃，接着王鹤老师问的这个问题，就具身智能本身其实是机器人的系统啊，啊，因为刚才蒋老师讲的一个。

就是说这个它的具身智能的一个重要的载体，就是机器人，机器人作为一个重要的载体，然后呢军事智能很多时候和环境交互，也有很多时候是在和人在交互啊，那么和人在交互的过程中的，这些安全性的问题啊。

因为如果他是一个完全的，这种无人的环境里面啊，比如我们的这个就自动的码头啊，这种自动的这个工厂啊等等的，这些安全性的问题相对来讲小一点，更多的其实就是一个经济成本问题，但如果是一个和人在交互的这样的。

一个环境当中，其实这个里面的这个算法问题和，这个里面的伦理问题啊，就都会是可能比较严重的，这个这个问题，有些也许我们能够有技术性的解决，有些可能不一定有技术性的解决，像大家可能这些年会熟悉的这个。

the trolley problem对吧，一个火车你是撞五个人，还是拐一下去撞一个人，这样的这种这种伦理判断的问题啊，那么我们其实在前面的这个临床实践过程中，差不多10年前。

我自己亲身的体会过这样的一个冲击，就是刚才我在报告里面讲，我们在做安全的强化学习的算算法，在线的强化学习算法啊，因为在我，但是我们知道，如果我们可以放弃一定程度的安全性的话，算法的效率会显著的提高对吧。

我不要求现实世界里面，一定我们的每一个行为都那么安全，那我的这些采样的效率会显著提高，但是它带来的负面是什么，就是一旦有这些坏的发生啊，在我们2012~2013年的这部分，临床实验里面。

就会发现说当时没有考虑安全性的问题，一旦有坏的这些事情发生，人本身对于算法的信任程度，和对一个智能系统的信任程度，是远低于对于另外的人和这个专业的专家的，这个吸引程度啊，马上就不让我们在做这件事情了。

所以当具身智能，我们的这些能力系统的能力在逐渐提高的时候，可能还是要特别的小心去看，他和人在交互的这个过程当中，有哪些是我们要特别注意的这个问题啊，对这我大概一些想法好。

这个我觉得就是安全可能是一个fundamental的，对于这个家用制啊，对于智能机身机器人的一个挑战，但是我们从就是学术上，那么呃，我觉得今天蒋老师给我们这个深度的展示了。

这个呃据深导航里头的一系列问题，我也想请这个蒋老师任就是从学术的角度，研究的角度上，除了这个导航以外，还有哪些值得研究的问题，特别是可能在座的很多同学啊，都有发表的需要对吧。

那么你们在做paper的时候，还有什么这个有很多空间的问题可以去研究。

对好谢谢，是这样啊，就是我觉得巨神智能，实际上给我们很大的想象空间，呃，我们反正都知道人工智能那个图灵测试是吧，现在的这个图灵测试到什么状态和阶段了，我们先不去评价，但是呢我们可能从自身这个智能机。

深智能这个视角来说，我们可能也希望一个具身体，是不是有这种类人工智能，人就是这种智能性的这样的一个感觉哈，这个我不展开说了，但是呢在这个过程中，实际上是有很多问题值得我们思考的，特别特别多的问题。

这个说很多事，多长时间可能都都都不一定能说完，但是呢我觉得这里面至少是考虑到一个事情，就是我们传统的很多人工智能的研究任务，就是因为现在我们有很多，很多人都说都在做做ai对吧，但是呢这个ai。

你一旦在这个距深这样一个场景下，那么它会发生什么变化，会有什么结合对吧，会有什么新的一些东西，我觉得这里面实际上是值得我们思考的是吧，就像cv的东西在据称智能下是什么。

n l p的东西在这个里面又是什么，包括陌生人的东西在里面又是什么，我觉得这里面实际上有很多，值得我们思考的东西，这个呢就是就像刚才几位老师讲的，这个里面，实际上这个这个问题很大是吧。

我觉得一句话说不清楚，但是呢我们实际上呢，你看到任何一个人工智能的关键词，我们都可以，从你认为你你理解的这个巨神智能的这样一个，视角下面看是什么东西，后面又会怎么发展，我觉得就会有一些新的东西出来是吧。

我们共同去思考这个问题，可能会未来会带来很多变化啊，这个是我想讲的第一个意思啊，第二个意思呢，就是嗯就是这个大家都在讲这个学习是吧，学习呢实际上是两个方面，一个呢我觉得现在大家思路上逐渐的是在呃。

在这个reframe是什么意思呢，就之前反正就是图像识别啊什么的，就是train一个model，然后去test就完了，现在呢大家开始这种大模型的思维了，什么东西都是说你个大模型训的东西怎么样。

我还是想讲一些机器学习的东西啊，机器学习它反而是一个training data，一个test data是吧，现在呢是一个big training data，然后呢在一个test data下去做对吧。

那么呢在具身智能这样一个场景下，实际上呢它还是要有一个环境的，有一个动态的环境和一个上下文的是吧，在这种情况下呢，这种大模型不一定好用，就举个例子，如果说我们家里面有一个服务机器人。

他不需要认识那么多人物，他不需要知道，那么多知识，他只要知道那一个他真正关注的那两三个人，和有限的几个知识，他能搞定，能弄明白就已经非常非常棒了，但是这里面是不是能弄明白能搞定。

实际上也很也有很多东西值得探讨啊，这个我不展开说，我实际上就总结一句话，意思是什么呢，这个大模型和小环境怎么适配，就是巨神巨神智能，实际上是是这个我觉得是值得思考的，就是大家都也都在讲这个大模型。

什么将来可以用到这个用到用用你来用你了，但是不是真的能用，你来怎么用，你来用你来效果是不是真的好，这里面实际上至少到目前为止还没有一个，至少还没有一个特别清晰的答案。

但是这个大模型怎么样来用或者怎么样来训，我觉得肯定是有很多值得琢磨的东东西啊，这个我也不展开说了，这个话题也很大，这是我想说的第二点，第三点呢，实际上现在就像刚才那个徐老师讲的，是让我挺认可的。

实际上很多哲学啊，包括很多安全啊，人的交互啊意图，这里面是有很多值得思考的问题，我前段时间我闲着没事，我看了一些文章，我发现那个东西我本来想搞搞那个东西，我发现那个那个那个东西我搞不了那个叫啥呢。

那个叫那个theory of mind，可能也有一些相关的这些论文，就是讲这个讲这个什么人的这个意图啊是吧，人的目的啊，那个什么false belief啊，就类似那个东西，实际上它是真的。

你能够知道你该干啥了是吧，你你相当于你相当于就是，相当于要做一个懂事的人是吧，要要要要要知道你该干啥，就就就大差不多是那种感觉，好像有个形容词叫叫叫什么来着，反正反正就是说呢在一个场景下。

你要知道你应该你，你知道每个人的想法是吧是吧，知道每个人就类似那种，我看看我能不能说清楚啊，我用一分钟就类似那个叫什么，就是咱们经常玩的一个游戏，就是那个叫什么，是那个杀人还是叫什么。

就就就类似那个东西，你能不能分析出来谁是在谁是一个骗子，或者谁是一个什么样的东西，就是一个意图形的东西吧，实际上我们很多时候就是更深层的，实际上是要知道一些人的这种意图的，当然那个更多的伦理啊。

或者那个东西，我觉得肯定还特别特别遥远，咱们先不说那件事情，但是一个意图，这个事情我觉得还是有很多值得思考的啊，因为你最终实际上是要为人服务嘛对吧，但是这个东西我反正我觉得也不好搞，我我也说不太清楚。

但是我我觉得这个东西蛮有意思的，至少不行，我就说这些吧，我觉得就是这是认知层面啊，人对其他就是智能机器人，对我们人的mental state的一个建模，这个确实很重要，我们最后其实会讨论这个呃。

人机共融的这个问题，那么我围绕着咱们这个具身智能，引入了新的研究问题，我个人感觉啊在导航就是我们在移动能力之上，其实呢聚生智能里头很关注的就是manipulation，就是操纵的技能跟场景交互。

物理交互啊，比如说你用手抓取，然后你使用工具的这样的技能的，这个研究是非常重要的，这个研究问题，那么围绕着这样的一个技能研究，其实我们发现呢其实据深的这个很多模型，它里面都有很多的技能模型。

这样的技能模型呢，也需要很多的巨深大数据来进行学习，我们知道今天的这个就是啊chat gp t g p t4 ，它之所以成功，就是依赖于互联网上大量的图文对和文字材料，那么其实我们未来展望未来。

我们巨深如果要能发展出这样通用的能力的话，那么这样的这个巨深大数据啊到底如何获得，那么可能有很多不同的路径啊，比如说是从人类啊，通过遥操作采集一些这个demonstration。

也可能是通过在呃模拟器里冲进行啊，强化学习等等啊，那么我觉得这个问题呢也是很多，就是啊同学和这个研究者关注的啊，我也想听听这个啊大家各位老师的观点啊，嗯我先说好好好。

这个显然我个人感觉就是这个剧身学习啊，实际上，这巨神大数据它是一个很重要的一个bottle neck，没有巨神大数据，那么谈这个所谓巨深foundation model就是很难弹的啊。

但据深大数据的获得呢，这有两个问题，说人力摇操作采集或模拟器两种可能选择，其实背后吧这个还是缺很多的infrastructure，对我觉得这个很很大的一个问题，实际上缺infrastructure。

就是到了这个居身智能时代啊，我个人感觉我自己培养学生也是有这个感受，你进入到这个领域之后啊，这个工程能力啊它会变得很重要，不管你是打算做摇操作还是模拟器，背后其实都有很多的。

他其实可能还不是那种啊理论问题，不是那种原则性问题，比如刚才这个蒋老师，实际上提到了一些有关博弈论的，或者是等等相关，他还不是那个问题，他背后有很多很困难的工程问题，当你采用人力要操作的话。

那么一个困难是什么呢，力反馈怎么办对吧，那么我人力要操作，如果是只是做基础的抓取，这个应该是没什么问题的，二指手柔性的二指手做抓取，人类要操作，我相信是是一个手段，当然在这个setup下。

你就未必用人类要操作了，你可能手工设计算法也可以，不过更复杂的五指手精细操作，例如说啊这个这个，当然机器人可能也没必要做这件事，比如转笔对吧，人会转笔转的，刷刷刷的这个什么王者水平，钻石水平的那个东西。

你怎么能咬操作，这就是一个事儿了，所以说其实呢可能要弄清楚，相当于是把这些scale呢，或者这些技能呢呃定义一个层级，呃，如果有可能摇操作采集的用摇操作也可以，但肯定我认为有相当一部分。

它的摇操作难度是非常大的，那么回到模拟器，模拟器呢，表面上看起来这个这个啊这个有一些好处，但模拟器里边呢也有一些问题难度，你比如说这个首先是3d的内容，那真实世界所有的东西都在这儿呢对吧。

当然你要花钱买，是不是你要雇人去标这个你要有这个这个成本，但模拟器的话，首先要不让模拟器里有内容啊，这就跟你弄个电视台做节目很难的，是不是啊，然后呢这个内容你不光要几何，你的嗯。

刚才老师也提也提到了这个你的reward，你的激励怎么标啊，对吧，你稀疏基地的时候他就不好做了，那么你不吸收激励的话，那么是不是能有些个reward，the pattern transfer。

这也是一些个一些个一些困难，但好在呢我们觉得就是说虽然这些事情都很难，但是呢我感觉啊，就是啊进展也是在不停的发生的，比如说google也给你展示了一下，又砸砸很多的钱，是不是人类要操作，能拿些什么事情。

那我们组呢还有nvidia，就是我们都是属于很关心这种底层的，这种模拟器怎么构造，其他的，比如egibson ai to sora，这些个他们关心这个上层的模拟器如何构造，总归呢就是有些个effort。

不过啊巨神智能弄到今天，他是一个时候，他缺很多infrastructure，你需要很多的技能，你需要学习很多的知识，其他领域的知识把它结合起来，我觉得这个其实是核心困难，抱歉我说的比较多。

对这个其实我们补充这个背景啊，就是我们其实看到google的c，看他们的rt one这些啊，这个背后呢其实是非常非常大量劳动力的一个，这个摇操作数据的采集，那么rt one呢大约花了17个月的时间。

采集了13万条，人类用遥控器操纵机器人执行任务，在这样的一个数据，那么他们的算法呢就完全是一个模仿学习，imit这个behavior cloning的算法，那么模拟器呢其实今天我们的talk里头。

包括这个卢老师啊，包括孙老师，包括这个啊，就是大家都都都谈到了，这个模拟器的一个重要性，那么除了这两种数据以外，其实还有这种人类的视频数据对吧，那么呃卢老师也可以再谈一谈好，其实我嗯当然做具体的操作。

尤其是机器人控制的话，需要这个真实的操作的数据和模拟器，但是对于这个从word model角度来讲的话，其实我们可以利用我们拥有的大量的视频，因为视频的话啊，大概率就是我们的第一人称的视角。

当然除了电影之外的一些，比如说ego ford的这些数据集，它其实就是人在操作一些东西啊，做一些task来完成一些任务，那么我们要做的是说，如何基于这些视频来学这word model。

就像上午杨乐坤讲的那样对吧，如果给你一个视频的数据，你能从这个数据里面学到一个word model吗，或者是回头能得到一个，对于具体的任务的操作吗，那么这个问题的话。

其实我想说的就是我们有大量的视频的数据，available on the internet对吧，我们如何用好这个数据来学习，能够帮助我们做据生智能操作。

或者是起码作为一个pretrained model，然后去进一步去做后续的这些工作，那么这个是我们可能需要，第一步去做的一件事情，当然这个也可能是我们从学术的角度来说，比较方便去做的。

因为刚才网课已经说了，对这个后面的操作的话，其实工程量以及经费方面都需要大量的投入，那么我们从学术的角度来看，如何从视频中去学一个word model，是我们需要去做或者是啊有挑战的事情好对。

所以我觉得就是这种被动的passive的，你观看人类展示的数据，其实可能对于我们学word model，学video feature，甚至一些最近的工作，学visual base reward。

用到真实世界的强化学习当中呢，都有这个很多重要的应用，所以我这里看呢我们的数据其实不止这两种啊，第一种呢是人类的，一个就是呃在呃就是视频的数据，这些数据呢虽然说跟机器人的具身不一样，它是另外一个身体。

但是呢仍然对我们机器人怎么做好这个任务，具有重要的启迪作用，那么人类摇操作的数据呢是最直接的，你直接回放这个数据就能让机器人干这个事，那么simulator里头它是最便宜的对吧。

你可以无限在里头高效的做，其实还有第四类数据，就是呢啊强化学习，机器人直接在真实世界中进行强化学习的数据，所以这个呃第四类数据呢其实就引发了我们啊，下一个我觉得很很重要，要讨论的一个问题就是强化学习。

那么在发展通用的巨深机器人里头，它可以发挥什么作用，我们既可以在simulator里做强化学习，我们又可以在真实世界，虽然这个很危险啊，做强化学习，所以这一点呢，我觉得今天这个崔老师讲到他们的这个人的。

这个就是机体啊，运动能力重建的这个东西，竟然是在真实世界里头通过强化学习采集的，所以我想孙老师也可以谈谈啊，这个这块您的一些看法啊，好的我就我连着上面那个那个第二个问题，然后到然然后到这个问题。

就是我们的这个这个巨神智能的这个数据，有些是从解剖里面来的啊，人体解剖来告诉我们这些我们的word model，因为我们的word model，刚才说我们其实从一个广泛的这个word model。

到一个self model，我说的这个self model，其实是人的这个物理的这个课题啊，所以需要从解剖里面来啊，有些这个从人的解剖里面来，这个可能不一定合适，或者不一定这个成本合适的话。

我们会从动物的这个解剖的这些数据里面来，这都是我们认识世界的方式啊，因为像这个minecraft，有可能下一代等这个算力起来了以后，这个游戏的真实性和这个物理交互性会很强，现在这大规模的3c游戏是吧。

这可能这个在做有些这个这个大家喜欢玩的，他那个交互性和那个simulator本身做的，做做做的做的非常好啊，那么这个里面的这个数据在哪来，这这个数据其实可能本质上还是需要，我们从你从牛身上来取样啊。

你从人身上真的来取这个样，来看你的肌肉的这个弹性系数是怎么样对吧，来看你皮肤啊，组织啊，然后骨的这些这些强度，然后神经的本身的这些这个这个呃，这个脑脊液的这些流动的，流动的这些参数，粘性等等啊。

就这是这是我们来构建word model，或者说我们来构建巨神智能的这个一个底层呢，还是要从这个物理物理物理世界里面来啊，所以这也是为什么我们说诶，在这个真实世界里面啊，真的来用这些强化学习的时候。

我们希望我们希望一定首先先有一个model base的，一个111个版本啊，那么model base的版本之后，从这个seem to real本身，这还是一个很困难的很困难的事情啊。

所以所以就是其实永远没有在真实世界里面的，pure model base learning，在真实世界里面一定是一个model base，加上model free model。

告诉我们所有尽可能它能够告诉我们的，我们再根据它再来进行，这个online的这些这些调整和适配啊，所以早期我们的这个一些研究工作，在人上的这个神经刺激的也好，这种外骨骼或者机器人交互的也好。

可能我没有这些数据，我没有这些模型啊，我需要cold start啊，这种方式来通过这个model free online on force learning，这个样子能够能够来做起来。

我们能够看到一些很好的效果啊，但是到了今天，我们就可以来一步一步的来构建真实的这些，世界的人的模型啊，机器人的这些模型啊，那么这些模型seem to real，可能最终确实是这个这个这个强化学习。

在我们的现实投影机器人中发挥作用的，这样的主要的途径啊，这是我的认识，对我我非常感谢这个思维老师啊，我觉得就是这个seem to real，其实他在很多剧深任务的学习当中，都起到了重要作用。

其实在蒋老师的报告里对吧，我们的这个呃据深智能体的导航，它其实呢我的理解啊，就是您的团队应该是在simulator里头用强化学习，做了很多这个导航策略的学习，然后呢部署到了真实世界，您觉得在这个过程中。

这个sim to real的gap是一个多大的困难，然后呢就是强化学习啊，能否就是如果我们依赖强化学习加seem to real，它有什么局限性吗，我觉得局限性还是挺大的，因为客观说就是在模拟器上。

然后用强化学习给他的training data，然后来训一训一个model还还不错对吧，然后呢你一旦换了个环境，实际上强化学的东西都不一定很好使了，在真实环境中实际上还是主要是建图。

然后的话通过学习的这种办法可能会更好一些，所以的话呢我们一个基本的体会就是，强化学习肯定还是需要足够多的数据数据的，或者它的泛化能力要足够的强的，要不的话他这个见得少，他可能就不行，见多才能识广吧。

所以这一块还是我，我认为还是需要有足够多的数据的支持，包括呢还是需要，可能还是需要有更多的这种环境的一些，真实的反馈，可能才能让它的泛化能力可能会更好一些，就是我是觉得就是在这个剧生智能中。

未来这种强化学习是一个非常重要的工具啊，他应该还是要跟其他的要呃相辅相成，一个是数据啊，一个呢可能还是要跟一些，就是其他的一些结合吧，你举个例子，就是跟这个相当于跟一些呃知识学习吧。

就是我不知道这个词应该怎么应该怎么样来说，就是什么叫什么数据驱动和知识引导的，什么学习，但是他怎么数据驱动，怎么知识引导，咱们不展开说了，但是呢我觉得未来这个具身智能啊，它要是要发展的话。

它不能是纯数据驱动的，它还是要有一定的知识引导，并且呢这个知识引导呢，可能有一些呢是人的反馈啊，就是人的反馈，然后来让他更好的来提升，他的这样的一个具身智能的学习能力，和他的行为能力，但是这一块。

我觉得实际上还有很多工作需要做哈，我简单总结一下呢，我觉得现在的实际上很多，就是至少是像什么视觉导航啊，视觉语言导航啊，就是虽然我也在上面发文章啊，我觉得呢你如果是这个在虚拟环境下。

反正玩一玩发发几篇文章是可以，在真实环境中挑战还蛮大的，离真正的work还挺远的，反而是那些操控啊，那些什么东西的，我觉得可能有一些东西可能可能会更近一点啊，就简单说这些其实就是这个操控啊。

这个其实我觉得苏老师的团队啊做了c啊，这个应当说我们coauthor的这个cpi的这样的，一个仿真平台，那么苏老师也发起了many skill，这样可泛化的，这个呃就是呃这个机器人操纵技能。

通过强化学习的这样一个挑战赛对吧，那么呃苏老师您对这个问题有什么样的看法，谢谢呃，我是觉得呢强化学习可能在啊，至少三个层面是有用的，第一个层面是强化学习啊，本来是来自于控制领域的。

就说底层控制底层的操作技能，这个东西是可以通过强化学习，学到一个可靠的控制器，这是第一个层面，这是底层层面的啊，第二个层面呢实际上是一个上层层面，那么如果广义来说，强化学习就是在反馈中学习，对不对。

那么我们现在不把它当成一个控制工具，我们把它当成一个exploration的工具，当成一个这个在错误中调整一个上层的planning，规划策略的这么一个工具，这也是一种强化学习的用法。

我不知道大家能不能感受到，就是这个这个区别啊，就是呃呃就好像我们小时候做作业一样，做错了，我们改了重做nlp里对吧，他不你不能说nlp里用用，也也说他们也在说他们什么human in the loop。

是不是这个这个也是强化学习，那显然不是控制信号学习，那是一个规划层面的学习，第三个就是刚才讲seem to real这件事，至于在操作技能这件事呢，我里边呢，我个人觉得强化学习的这个空间更大一点。

因为某种事上像刚才讲老师讲的navigation这个问题啊，你不用强化学习，直接去建模，好像也可以，这就这就不能给他一个呃，就是它的必要性似乎未必那么大。

对那么manipulation里边好好些个情况下，你去看看经典机器人，这个软体在这个摩擦比较复杂啊，等等一些个或者是叫under system，就是欠驱动系统，这些set up下，传统方法知识。

还真就给你弄不出一个可靠控制器来，这时候呢，强化学习作为这个这个必要性会大一点点，嗯对我觉得就是这个呃啊苏老师刚刚讲的呢，让我也进一步的感受到啊，就是说我们在技能学习里头，它其实啊非常的复杂。

这个操纵对吧，那么这里头的可能试错是一种重要的学习方法，但是可能呢像这个google他们的这套遥操作系统啊，他通过模仿学习也是一个重要的方法，那么其实未来呢我觉得就是这种巨型机器人的，呃，技能学习。

会长期成为我们一个通用机器人的一个bottle，neck啊，你的机器人到底能学会多少种不同的技能对吧，叠衣服是一个技能，倒水是一个技能，这个啊这个就是挂衣服是一个技能对吧，那这样的技能学习在未来呢。

可能呢只要通充分的让我们机器人可泛化的低，这个低成本的学到这些技能呢，我们的机器人才能有更多的，在真实世界中的用途啊，那么其实说到这里呢，其实我们已经这个马上就到这个问题了。

就是说畅想未来我们通用具身智能机器人，还有我们讲的多模态巨深大模型，那么怎么从我们今天已经有的这些数据采集方，式，数据的这个就是生成方式，到我们现在的这个大模型和这个气啊，各种学习方法，监督性学习。

强化学习和模仿学习等等，来共同推动这样的一个啊伟大的这样的一条，这个发展道路，那么我我觉得这个卢老师的这个minecraft，这个可以说已经是一个挺复杂的一个环境里，当然了。

它的物理是比较简单的环境里头发展出来的，一个呃，借用了很多大模型的一个工作，陆老师也可以分享一下您的看法啊，ok好啊，就是我个人理解啊，就是目前来看的话。

基于比如说了这个large language model，或者是像gb t41 样的，带有这个可以输入视觉信息的一些模型的话，其实是可以跟比如说我们有一个scale library。

然后在这个library上面去做，planning是可以去完成一些啊，比如说像man craft里边的简单的任务，当然这个scale的学习的话，我同意刚才苏浩老师说的，这个。

这个这部分可能是需要用强化学习去尝试的，那么我想说的就几点吧，一是我们需要构建一个scale library，当然这个skill library的话，它可以是很啊很简单的一些动作的。

比如说sequence，但是我们要有这么一个skill library，有了这个skill library之后呢，比如说我们通过这个skill的组合，比如说通过用20language model的组合。

通过这些skill的组合呢，其实我们就可以完成一个比这个skill library，指数级别的一个task，完成这样的任务，那么这样的话。

其实我们相当于就连接起来large language model和skill，对吧，因为我们因为要构建具深大模型的话，那么skill library肯定也是一个必须必须要构建的，但是它的数量需要多少呢。

我还真不知道，因为对于minecraft的话，他可能是limited的数量的scale，但是对于具体的机器人的操作的话，他可能需要很多很多的scale，以及如何在环境中持续的学习这个skill。

也是另外一个非常重要的点，另外需要说的一点就是啊，刚才提到的word model，我相信如果我们真的要去升智能，然后去跟环境交互的话，至于视觉的这个word model是不可避免的。

或者是如何把这个视觉上的word model，和更抽象的language model，因为它更具备一些reasoning的能力，如何去结合起来，也是我们需要考虑的一点。

那么就是啊老师莱姆是model word model以及scale library，我我啊我大概就是一些comments吧，我看苏老师是想，我只想说非常同意哈哈哈哈对对。

就是呃其实关于巨深大模型怎么发展啊，也有很多这个啊学者啊，同学们有问题对吧啊，那么我见了很多就是呃感兴趣这个问题的，这个呃这个学者他们也会问，就是说呃是不是未来的巨深大模型。

它就是我们现在的这个gt 41样，你给一个图对吧，给一个啊语言的command啊，我要渴了，我要喝水，那么这个大模型直接输出这个机器人，底层的控制信号，比如说我迈那条腿，我的手怎么动。

那么这是不是巨j是不是巨神大模型，那我们看到其实现在像泡沫一这样的，它所谓的啊具深啊大模型，它其实输出的并不是底层的这个呃，机器人的控制信号，而是机器人的skill对吧。

那么这样的这个不同的这个发展套这个道路啊，就是这个呃上层的调度，接着底层的skill library，或者是n to n的一个从图文直接到这个呃，这个肌肉控制，或者是电机控制的这样的发展道路。

大家觉得就是哪一条可能是未来真正的道路，或者我们现在应该走哪一条道路啊，大家有什么这个看法吗，啊那我先说，那我就坚持我坚持刚才的观点，我自己的观点可能就是skill的话。

其实因为人的话本身要学很多skill，比如说你小的时候学走路啊等等，其实都是要学的，所以的话我认为啊就是还是需要一个skill library，search skills层面去做一些plenty。

另外还要需要强调的就是强化学习的重要性，就是做scale层面的学习，包括比如说你要练习打网球，比如说你要练习打乒乓球，你要拿世界冠军，这个不管是model free也好，model base的方法。

这个trial error的这个尝试，是需要你需要苦练才能得到这个技能，好，就是我是我的comments，嗯崔老师和蒋老师有什么看法吗，啊那我说一句吧，这个巨神大模型，我我觉得这个路可能还挺还挺远的。

我就是反正相对比较保守吧，因为这个大模型它是从哪来的呢，他肯定是从训练数据来的对吧，你这个训练数据是啥，它实际上能训出来的基本上就是啥了对吧，然后呢现在的话呢说句实在话，咱们在这个巨深智能上，它的场景。

它的任务涉及面特别广，然后呢你如果想真的做一个特别通用的东西，可能也比较难，即使是做一个专用的这样一个大模型呢，可能也比较难，因为这个数据采集，实际上是个特别特别复杂的一件一件事情，另外呢。

我觉得这个大模型当然你可以讲是君臣大模型，但我觉得可能一开始还是从点上来的，还是点上来的，然后在一些特定任务下可能是好的，或者你反正你反正做表示嘛，或者视觉语言表示你再加一些指令，你也可以训对吧。

然后你说我可以在什么情况下好也是可以，但是这个大模型是不是真的能够，满足我们实际的需求，实际的任务，我觉得可能还是有有有一段时间要要做吧，包回应到刚才那个关于数据的问题，我身上挺担心的。

因为这个数据将来肯定会有，但是学术界可能不一定能搞得出来，我我感觉那个东西太花钱了是吧，然后呢你企业的话，他们出来以后，可能他这个大模型，他们那个逻辑上的大模型可能就会有了。

但是是不是真的能满足实际的应用需求，我觉得可能还是有一定的距离的啊，但是当然这个这个这个事情，肯定是值得值得做的，并且呢肯定是不断的会有人会提这件事，但是他是不是真的能那么好的。

能满足我们的这个想象的那个那个事情，我觉得还挺远的，我我我现在是这种感觉啊，不一定对啊不行。

我说一点点啊，就说我感觉啊这个巨深大模型这个事，我也是我坚持我自己的观点，刚我那个报告最后是放了一张图的啊，我是觉得呢这个这就好像我们说要求，如果你是完成一个long horizon task。

你要你是不能直接训练这种东西的，你你必须引入一个所谓compositional generate思想，还要组合巨神大模型也一样，就是我觉得它不是一个模型，它是好多个模型，那个perception模型。

world model模型，那么这个这个decision模型等等，就我觉得它是好多个模型的集合，当然呢实际的发展路线可能是，这个你要解耦了之后呢，你才有可能对每一个模型所需要的数据少一点，少一点。

而且你引入skill之后呢，你才不需要那么多的low level sequence，不需要那么多的control sequence，所以其实巨神大模型里边的一个问题，其实是解耦，怎么把这个矩阵大模型。

变成若干个小一点的大模型，然后还能组织起来，其实人也差不多，比如我举个例子，这个这个当我们做一个什么新的事情的时候，对吧，我们第一次去做的时候，我们是会想的，我们会想的嗯，我不知道什么是合适的游戏。

打游戏吧，比如说打游戏啊，王者荣耀之类的东西，对不对，那你一上来的时候，你看看看看，你是要很多的基础知识去想的，但是你玩了很多遍之后，你就下意识反应了吧，这就是说这个这个嗯。

这是这就是一个你既有必要有skill，当你反复练习之后，scale又会融合，就这么一件事，所以巨深大模型我的观点就类似于蒋老师的，是巨神智能，它是个很大的事情，是个很远的事情。

他一下子统帅掉了半个人工智能，你不能说我一把就做到了，没有这种事存在，所以聪明的做法应该是嗯，九还要找到中间的耦合点，对对，这个虽然说虽然说我看来我们这里头的观点啊，相对来说都是比较偏向于解耦的啊。

那么呃这个我也不能这个为了反对而反对，对吧啊，就是我我个人的理解吧，这种解耦啊我也非常认同刚刚四位老师说的，那么这个可能也有一种数据的考虑，就是上层的这个规划或者是图文的。

你理解你high level要去干什么，这个部分呢，互联网的图文，大数据已经越来越多的能帮我们做这件事了，但是low level的这个skill呢，具体你怎么做，动哪根手指对吧，这样的数据没有。

所以说可能呢从数据的角度呢，我们是底层的技能，获得了什么技能的数据，就能学会这一个技能，要学会这个技能呢，这就是一个小的垂直模型，那么可能今天我们有抓取大数据，那我们就学会了物体抓取模型。

明天呢我们有什么移动大数据，我们就能解决机器人在场景中的导航，那么我们有什么搅拌的大数据，我们有什么什么对吧，一个个的技能，那么这样子的话，底层的垂直模型跟上层的平行的图文调度，大模型对接。

可能是短期内来看比较可行的一点，那么展望未来的话呢，这个可能这个答案呢，就还需要留给各位在座的学者和同学们，一起去研究啊，那么在巨深大模型之后呢，其实我们最终想讨论的一个问题，就是可能很多同学也很关心。

那么这样的通用机器人离我们还远吗，对吧，特斯拉的这种人形机器人啊，会不会跟人类之间发生一些冲突，发生一些这个威胁，怎么能让人与这样的智能的这个机器人，这个共荣共生啊，我觉得这个崔老师可以这个谈一谈啊。

好的，这个人和机器人如何共荣共生，我们我们今天已经和这个机器系统，共荣共生了对吧，在座每位都兜里都有手机啊，而且很难把手机放下，24小时，48小时，这个这个离开他对吧，就我们已经。

我们已经像这个这个需要空气和水一样，来需要这些信息化的这些辅助工具啊，所以呃但是但是这里面是呃，其实其实是两层人机交互，要看它是物理层面上的硬交互还是这种软交互，或者说是现实交互还是虚拟交互。

我们虚拟交互的这些这种设备，已经已经我们这个使用的非常非常习惯，非常非常常见啊，但是物理世界的这些硬交互的，尤其是和人产生直接的这种物理接触的，这些这些机器人，这还是接下来的一个比较比较大的一个难点啊。

那么人形机器人本身从这个现实的应用来讲，其实有一个有一个需要解决的问题，其实还是平衡啊，前面我的报告里面给大家看到了诶，那个人可以靠自己的力量能够站起来，但是平衡不行，到今天为止，包括我们在内。

世界上所有想尝试通过这条路径帮助瘫痪的人，完全靠自己力量站起来的，这样的尝试，已经在全世界，已经有不少地方在平行的在做这个事儿了，包括我们国内也会也会后面有更多的地方在做，我们会发现说站起来。

靠自己的力量站起来没有什么问题啊，但是走起来也可以啊，走起来比站起来要更难，但如果想要保持平衡啊，我连个拐棍儿都不主，我就靠自己的双足这个直立行走到今天为止啊，还不太能不太能做得到啊。

所以这件事情在人身上是这样，在机器人身上，本身机器人系统，尤其是双足机器人系统，它的这个sensors and actuators，它的对于这个力学相关的传感器也好，它的这些控制器也好。

其实跟我们健康人相比上来讲，还是差得比较远的，那在这种情况下，其实可能我们更希望的是，至少我们第一代和人来交互共荣的，这些共生的这些人形机器人，尽量不会摔倒，砸到你啊对吧，大家做过机器人的。

可能知道你机器人随便一个东西，哪怕他倒了，砸在你的脚上是很疼的，对吧啊，你这样的一个，你这样的一个大的这种人形的机器人啊，特斯拉要做一个1米75~1米8之间的小米，那个机器人也差不多。

他就是要仿人的这个样子呃，平衡的问题在这种日常生活场景下的平衡问题，其实其实是这个第一步要解决的啊，所以可能从我个人的观点来讲，可能这种足式机器人里面不一定双足的，会是最早和我们实现这个共荣共生的啊。

然后很多的轮式的机器人，今天大家在酒店啊，在这些地方，很多这种轮式的机器人，已经开始和我们有比较好的交互，可能会有这么一个过程啊，对所以这个也是一个很好的问题啊，为了在短期内我们人与机器人共融共生。

那么我们机器人应该采取一个什么样的形态，对吧，是二族的人形啊，还是四足的这种狗型对吧，还是这个当然了，也可以是马行对吧啊，那么啊还是这个就是轮轮式机器人，我觉得这个好像今年是一个挺热的话题啊。

就是说很多人形机器人，公司都雨雨后春笋一样出来了，我不知道各位老师们有什么看法，你们个人呃这个呃对比较支持哪条路线啊，啊这这个机器人首先得可能据生智能之后，有了的这个机器人。

才能可能才才能谈到共荣共生吧，我我个人啊，因为我做很多多重人体强化学习的方面的工作，刚才那个蒋老师提到了sirm，就是有了这个，真的是巨生智能的一个机器人的话，他真的能够做什么。

或者是他如何去predict，你的action或者你的mental state是什么，这个想一想有点可怕，这个这个事情，但是当然我们还没有到那一步，等我们到了那一步再说，这个机器人的话。

我觉得只要能就目前来讲的话，只要能服务人的，帮助人类更好的生活的话，我觉得不管是什么形状都可以，哈哈哈哈哈哈嗯对，可能现在第一步就是防摔对吧，不要把家里的小朋友砸坏了。

那么所以说可能人形机器人在这一步还是有，比较大的一个就是呃挑战吧，那么今天其实我们的报告啊，就是这四个报告，我也想让这个在场的这个呃，各位学者和老师和这个同学们把握这个机会。

跟我们这个四位嘉宾进行一个交互，有有没有在场的啊，这个呃观众想提一提问题，关于我们巨神智能今天的论坛的啊，嗯哎好，请把话筒给到这位观众啊，各位老师好啊，首先我自己自己介绍一下吧，我是一个本科生。

但是我在呃特斯拉待过半年，然后我现在呃入职的也是协作机器的一家呃，头部企业，然后我最近也是在一直思考一个问题，就是呃关于这个多模态的，就是传统的多模态，和我们现在大模型下的多模态。

它到底呃革命性的点在哪里，因为我听听人讲，就说呃我们能把传统的这种多模态的，它是从不同的维度过来的，然后我们从呃利用大模型，把所有的维度融到一起，就像呃有一位老师讲的，就是说建立一个呃整体的模型。

然后这个整体的模型再去输出，他对于这个呃环境的呃，就是再去输出他这样的一个最后动作的结果，就是呃我还是没有太明确这个大模型，它能够给多模态带来的这个意义，就是想听一下各位老师对这个的理解。

我可以理解你的问题是，就是多一般的多模态大模型和巨深，多模态大模型的区别吗，可以这么理解你的问题吗，哦也可以理解为就是传统和现在的这个大模型，给多模态带来了什么嗯，是不是说传统那个毛t一呃。

multi media是吧，multimodity，那那那那个领域的研究和现在的multi modality的区，别，是是说这个问题哦，对对对，似，唉之前的行，那我就我就简单说两句。

就是之前实际上他就是相当于不管是图像，文本视频，相当于把它联合学习嘛是吧，不管是八bedding到一个一个一个空间中，还是怎么样子的，还是后面在语义概念上给他进行学习，多模态这一块嘛。

然后现在的话就是用transformer这种架构，然后所谓的这种多模态的大模型吧，他实际上还是希望能够建立这种视觉和语言，这样的一个对齐的这样一件事情，但是我觉得实际上还是挺难的。

因为语言那个那个那个词和词的对齐可能还行，但是你真的要是跟这个图像中或视频中，那个对齐，我觉得还挺难的，呃，包不管是数据啊还是这种训练啊，这这里面当然现在也有一些效果啊，就是我简单一个感觉。

就是虽然现在大多模态大模型很火，也有一些效果，但是它是不是真的达到我们想要的效果了，可能我觉得还有待观察，我现在是这种感觉啊，仅供参考，罗老师，对我，我猜你说的多模态应该是指的，包括声音啊什么的是吧。

现在的大模型的上面的多模态，主要指的就是文本和图像，对如果声音的话，他其实可以比如说人说的话的话，可以转成文本文本的形式，这样来输入进来，统一成啊transformer的输入包括文文文文和图。

对现在的多模态基本上指的就是图和文本，没有说声音层面的大模型，对我补一句吧，就是嗯我觉得啊啊啊，在这个a i g c的这个set up下边，这个多模态有些个很神奇的事情，比如说像darling。

这是一个啊或者stable diffusion吧，可能是stable diffusion，可能更更更更说的更有意思一点是吧，它既是一个图像的闪车模型。

但是呢他也借助了文本的embedding space，帮着他去这个initialize一些事情，这样他他做出了一些很有趣的玩意儿，有些个这个这个这个这个embedding sp差值啊。

就它的差值其实很大程度上还是被，如果要是离开了图像只有的事儿，如果离开了语言，只有图像，那么就更像传统的干之类的那种，那么你是不大容易弄出来，这个非常有趣的效果的，就说他的这个文本空间。

文本空间很适合文本，它非常适合组合，非常适合组合泛化，所以其实呢那么文本和图像和，视频和这个3d的结合，文本这边对于他的这个组合性质的学习，起到了很大的帮助作用，但另外呢那些个具体的跟物理世界有关的。

那些模态呢，又补充了文本不能cover的一个embedding space，我觉得这个视角也算是个有趣的视角，对那我最后呢就是还是因为围绕剧深吧，就巨深，多模态大模型跟多模态大模型。

到底有什么本质的区别，就是巨深的话呢，它是呃根植在一个机器人的形态里的，所以从more ford这上讲，这个这个机器人形态它能执行什么任务，他有几条胳膊，他有几条腿对吧，它到底以什么形态去进行运动。

进行跟场景的交互，那么所以巨深多模态大模型，它一旦谈到巨深，那么他的能力就会受制于这个他自身的形态，同时它的形态呢又能够进一步的这个去驱动，这样的一个大模型能做什么样的事情，所以我感觉。

如果我谈巨深大模型和普通的多模态大模型，我一定会从他自身的这个形态和，他能做的事情上去区分这两者的区别，那么我们时间机会非常宝贵啊，有没有其他的观众啊，愿意啊，好跟我们嘉宾交流啊。

多谢我的问题稍微不呃不太一样，我是从宾夕法尼亚大学来的啊，抱歉我的中文说的可能有点imperfect，所以啊if you allow me a certain amount of。

就是尤其是对于呃呃如果是在minecraft上面，或者将我们最先看到的media出的那个voyager，在这个embodied agent的这个framework里面，可不可以把它用在。

我知道我们这今天这个discussion，主要是在机器人和这个research方面，但是可不可以用在如果说金融或者政治这方面，用这个emframework，像假如说做一个啊小agent啊。

它可以做模拟trading这种感觉，我认为是可以的，但是首先需要你的large language model具备，比如说金融的矿的也好，就是量化交易也好，这样的一些啊，他这个吧。

比如说像bloomberg训练的那个gp t吧，他有这样的能力去可以作为一个planning planner的话，他是可以知道，比如说你的一些scale，只是做一些高频的操作等等，我觉得是可以去尝试的。

嗯嗯对，那你觉得这个approach和直接让一个lm，像bloomberg p t就是给他一大堆data，然后让他train，然后就是一个black boss，下面更像是一样。

这个两个approach的difference会在哪里，首先就是对于large language model的文本的话，我不一就是不一定拥有，就是一些操作，我不知道有没有一些操作上面的记录。

如果这个是有的话，比如说他就是从文本到文本，就是操作也一些，比如说交易也也被记录下来了，那是有可能的，如果没有的话，那可能就不太行，这部分的话可能依赖于数据本身。

嗯所以我们这个bodied agent的这个approach的，主要advantage，说，他这个data有可能l老大没没有这种transaction。

record的这种direct availability啊，对对，我觉得这里头你用到金融里，你谈剧深呢，严格意义上我个人觉得不太合适啊，因为你做的这些操作呢，它都是一些抽象的操作，但道理确实是相同的。

道理就是说它其实可以被强化学习啊，来帮助你的这样的一个金融的交易，因为它都是action，他都是decision making对吧，那么所以说你也可以，我觉得你完全可以想象，据我所知啊。

国内的有一些基金是用强化学习，当然了，这个也可能很危险对吧，那你赔大了，那你强化学习对吧，谁管谁也管不了对吧，那你可以甚至建立一些用我们的思想对吧，我们用巨深启迪一下。

能不能建立一个交易的simulator对吧，你先在你的simulator里学一学交易的策略，然后呢再把这样的policy拿到你的真的市场上，做一些real world aptation。

会不会能指一些损对吧，可能我只能从这个角度去讲啊，具身智能对你们的可能的一些启迪，应该补充一点，就是有时候你是做交易对吧，有时候你是做pofolio management对吧。

然后交易的话可能是pofolio management下面的一步，那这样的话，其实就是如果你的任务是比较宏观的任务的话，那你可能在上层的话，可以用劳斯莱姆这model作为panner。

但是比较微观或者比较涉及到高频的交易的话，那部分的话我猜可能用强化学习，各个会更好一点，因为包括国内一些量化公司，也是用强化学习去做不相关的一些操作，多谢啊，还有这个观众想提问题吗，啊好，呃大家好。

刚刚刚各位老师讲到了，那个巨神数据的这个获取，我想谈一个可能更更大一点的问题，就是这个他的这个训练环境的构建，然后我关注的场景呢，可能稍微跟机器人相比来说更加抽象一点，比如说我举个例子。

就是这个我们虚实的这个实实际的人，和虚拟的这个智能体要协同交互完成一些任务，比如说举个例子是星际争霸这种这种这种战略，即时战略游戏里面的任务，我可能真实的人和虚拟的这个bot之间。

我们要通过呃语言的这种交互啊，然后虚拟的智能体，智能体可能是通过视觉的这个这个获取感知，然后他们之间要通过这个视觉语言的交互，去协同的完成战术任务，当然我关注的可能不一定是呃。

呃专门是星际争霸里面这个环境，如果是别的，比如说我要创建一个呃，更加更加真实的这个三维环境，去做这种协同任务，那么各位老师就是特别是卢老师和苏老师，我想请问一下，就是像这种训练环境的构建。

包括还要去采集呃，专家数据，或者是或者是还有这个场景的数据，大家对这个这块的这个训练环境的构建有什么，用什么框架性的这个思路和意见，行这个这个训练的话，因为你是agent和人交互吗，你最终的目标对吧。

对这个的话是不是可以参考像alpha系列，然后他用self play的方法，只不过你现在加上了一些语言的形式，然后去训练这个流去达到这个过程，因为你最终需要跟人交互吗。

可能self play是一个方法吧，我现在能想到的对，我觉得你这个set up呀，它更像无人驾驶里边，对不对，那么既有真人也有无人车，那但是呢，无人驾驶跟你这儿有个不太一样的地方。

就是说你刚才这个假设里边有很强的对抗性，无人驾驶没有那么多对抗性，所以如果是这样的话呢，这就涉及到今天几乎没有讨论过的一个问题，就是多智能体，那么如果是剧深多智能体，这里边的这个博弈的部分该怎么表达。

这博弈部分呢，在我的看来，他可能啊不是传统意义下的强化学习，或者是这个language model去表达的，但博弈也有博弈自己的东西对吧，比如说围棋是博弈。

那那么那么m c t s monte color research，这就有用了，而是博弈很大球，但还是model base搞掉的对，所以你这个地方呢在这个setup下。

你需要想办法去model每一个agent的intelligence，你怎么得到每个modern tendence呢，这就引入一个一个观点啊，就是我觉得这个多智能体系统，当然今天都可以做。

但是最有趣的多智能体系统，我觉得他还没到来，因为单体职能还没在那对，如果单体都很弱，群体的现象也就没有那么有意思对，所以我觉得随着时间的发展，单体越来越强，他们必然到一个多体的训练会很重要的时候。

好的谢谢苏老师，我另外还想问一下呃，问蒋老师一个问题，就是我们也关注那个视觉语言导航，这个具体的任务呃，这块就是他既既对表征多模态的表征有挑战，然后对基于表征去做长城的这个任务，规划和执行也有挑战。

就在您看来这种混合性比较强的这种任务呃，它的大概的这个本质的解决思路，大概是什么样子，好谢谢你的问题啊，他现在就是做视觉语言导航，它实际上需要几个方面嘛，一个你要对语言有一个表示。

然后的话呢你要对当前的观测有一个表示，还要把它们关联起来，同时呢你还要对你过去的这样的一个行为轨迹，也要有一个表示，就是所谓的历史信息，然后呢利用这些信息，然后的话呢。

你实际上呢你要做好一个这样的一个视觉，视觉语言导航吗，你身上还要有一个这样的一个全局的一个地图，然后你知道你当前的位置和在全图位，地图中的这样的一个呃，一个一个这个第一个位置吧。

然后你才能做下一步的决策，所以他是一个挺复杂的一件啊，挺复杂的一件事情，所以的话呢现在从研究角度上来说，反正有一些benchmark可以在这上面去做，就当前我觉得最大家主要关注的还是。

这种视觉和语言的结合，以及他怎么样和这个下一步的行为结合，就是主要还是在这一块，我反正在我看了一些材料上来说，主要的这样还是这种，相当于他跟之前的那种多模态的那个，本质上我觉得车差别也没有那么大。

客观说没有那么大，但是呢就像您刚才提的这个问题，一旦到一个真实的环境中，在一个在一个真实的环境中，如果是你还真的要把这个语言给他理解好，然后呢你还是真的要跟这个你的视觉关联，要给他ali。

就要给它关联起来对吧，但是呢现在实际上真正做的他没那么做是吧，他没有那么做，他给他关联起来，然后呢才能做下一步的决策，所以呢他的环境的理解，语言的理解，这实际上是都说是这个自然语言。

是人工智能的这个明珠，又是cv又怎么重要，我觉得真的要做的话，可能要把这两方面都得给他，达到一定的状态之后，然后才能讲这个视觉语言导航，当然你如果纯粹从机器学习的办法。

就是从这种embedding的这种角度上，然后做一个预测，当然也可以再加上强化呀，什么也可以啊，但是我觉得这个事情，反正我今天可能讲的事情都是比较保守哈，我都觉得这个事情每一步都很难能做出来，都都很难。

但是呢我觉得真的要做好的话，还真得需要几个方面都得结合，最后啊啊好的，谢谢家人，那么我们还有观众诶，这这位观众啊，老师好，其实就是刚刚听到那个苏浩老师说，他就是说呃我们要做这个boai的话。

他其实是会有一些影，the influence charter的一个问题，然后的话infrastructure里面，然后您提到说就是simuler。

然后还有一个就是我们的fundamentation是呃，fundamental model的一个问题，然后fundamental的话，fundamental model的话，那个呃卢卢老师。

他是认为就是lm可以作为一个fundament呃，可以作为一个fundamental model的一个近似，但是嗯还嗯因为我自己，我之前去调研文献的时候，我看到的那个呃，就是呃，我们要要要去建立一个。

真正能够具备更多智能的这种模型的话，那那那他那就是今天早上等那个呃，professor lillian，他说的呃word model，然后就是我不太理解，就是word model，它和这个lm。

就是他这种具体的一种体现是什么，因为我我自己之前看到的文献里面，就是word model的话，其实其实他是从那个神经科学的角度去出发，他就是有有一个神经科学家，他他他其实是呃研研究了这个呃。

他他是认为我们，我们我们大脑他是在对这个东西，它进行一个研究，对这个世界进行感知的时候，就是我们是先对它进行一个预测，然后然后去呃先建立的不断的更新，这个我们对这个世界的模型，然后呢去建立一个预测。

所以呃其实这个word model其实是不变的，但是刚刚听你们说，就是我其实不确定这个word model它是不是变的，因为word model我觉得他可能对于每一个人来说。

他的word model其实是不一样，对我那么那个呃那我来简单说一下吧，我觉得可能这个world model它的一个呃概念呢，嗯在学术上比较学术的定义，是对于当前的世界的某一个状态。

当你take一个action的时候，这个世界的状态将发生怎么样的一个改变，那么这个呢是强化学习里头讲的model啊，那么这样的一个world model呢，你可以把它当做一个simulator。

让你的policy跟这个world model进行交互，得到大量的这种你的word model，这个给出的下一步的状态，那么你可以基于它去算reward。

那么这是一个典型的这个model base的reinforcement，learning的思想，那么我们谈word model，就是说如果我做这样一件事情会怎么样。

那么large language model lm，在一定程度上你可以跟他用语言的方式去交互，我现在在一个房间里头，如果我就是啊，这个比如说啊这个我的脚下有一盆水，那么我跳进去会怎么样对吧。

那么可能large language mod就告诉你水花四溅对吧，那么虽然它的这个输出是一个呃语言上的描述，但它仍然呢也可以认为，一定程度上是一个世界状态变化的一个状态啊，那么所以说我觉得这是我理解的。

卢老师讲，这个llm可以被当做word model来使用的一个case哦，所以老师就是呃，因为我我传我理解的那个传统啊，那个强化学习里面他的那个model，它其实是一个固定的一个模型，就是我们关于我们。

我们其实是先对环境进行一个建模，然后的话就是嗯就是但对于真真实的order model，我之前可能一个想象就是真实的order model，其实应该是要去根据我们对它交互的过程中。

其实word model它其实是会改变呃，就是我们现实世界的一切，其实都是物理学支配的，你从这个角度上讲，物理学就是我们这个世界的word model，如果你能model所有的一切原子什么的运动。

全都能够model的话，那这就是你的word model，只不过呢我同意你说的一点，就是我们做的model不可能是一个大统一模型，把什么东西都完美的model，所以它可能要被update。

但是呢他并不一定在用的过程中，他要时时被update啊，这是我的看法啊，好谢谢老师好，那么我们今天啊今天由于时间所限呢，我们就这个嗯，非常感谢我们四位speaker的这个到来，那么我们北京智源巨深呃。

北京智源今年呢也建立了这个智源巨深，智能研究中心，我们从这个物体的这个抓取到，物体的功能性的操作灵巧手，到这个三维世界导航也做了一系列工作，那么我们认为从物体抓取灵巧操控，寻物导航等这一系列的技能呢。

将能帮助我们建立一个通用的移动操作平台，嗯最后打的这个广告，就是希望如果大家感兴趣这个呃具身智能，特别是为了通用人工通用智能体b啊，这个啊build的这样的一个移动操作平台呢，可以联系我们啊。

去这个呃研究科学家或者是实习的岗位啊，再次这个感谢啊所有的到场的嘉宾和观众们。

谢谢大家。

基础模型前沿技术论坛 - P1 - 智源社区 - BV1hu411h74n

大家下午好啊，我是自我介绍一下啊，我是来自清华大学的刘志远。然后非常欢迎大家来参加到咱们今天下午的啊这个基础模型的啊这么一个主题的论坛。啊，那么呃因为前面给了我5分钟的时间，然后来做开幕啊。

那个因为我们今天的所有的嘉宾，然后我们在后面都会邀请他们来做特邀报告。那么我就不一一的不一一的介绍他们了。那我只是想表达一下我自己的这个个人的一些啊这个呃来到这个会场的一些啊自己的感受。

那么实际上其实非常的感慨啊，就是在今天这么一个特殊的时刻。然后在我们支援大会啊，然后来去呃这个举行这么一个基础模型的主题的一个论坛。啊么呃实际上是回想起来，我们应该是在2020年。

然后在呃这个支援研究院的支持下，然后开始的国内的最早的。😊，大模型的一些啊这个相关的研发和研究的工作。那么实际上是在过去的啊两年里呢，我们在志援大会上，然后都进行过啊这个相关的大模型的啊这么一些发布啊。

那么实际上是在啊一直到这个去年底之前啊，实际上是大模型的，更多的还是在学术界在这个产业界，然后啊引起一些从业者的关注。那么呃到了今天呢实际上是在chaGPT的这么一个影响下。

那么我们啊实际上是有更多的啊这个人士啊认识到了啊大模型，然后这个为代表的人工智能技术，然后在这个各个方面的啊存在的这么一个巨大的潜力。那我们一个方面是感受到啊。

我们啊这个以资源为代表的啊这个国内的研究院，然后在这种技术上的探索的啊这么一个啊这个潜瞻性。那么同时呢我们也能够感受到啊在这个技术的浪潮上，我们的一个相关的。啊。

这么一个机遇和挑战并存的这么一个啊这么一个趋势啊。那么今天啊来到2023年啊，实际上是我们可以看到啊，无论是呃全世界还是在国内，然后我们都已经陆续的涌现出来了非常多的啊和大模型有关的一些创新的技术。

还有一些这个创新的应用。那么我们也相信呢啊这个以资援为代表的啊国内的这些啊这个大模型的先行者啊，也能够在我们啊最新的这次啊这个人工智能的革命中，然后能够啊这个发挥重要的作用。

那么我我想我我认为呢支援大会应该是咱们国内啊最早的比较系统的啊去推动大模型技术的啊这种普及和推广的这么一个啊这么一个论坛啊，那么我们今天的话呢，我们就以这个基础模型。然后作为啊我们的主题。

然后来邀请了啊国内外的非常啊啊这个一线的专家，然后来给大家介绍啊这个大模型。啊相关的一些啊比较前沿的一些技术。那么今天啊其实我们后来在这个啊跟讲者进行交流的时候，还啊看到啊。

就我们今天邀请的四位特邀讲者啊，都是女性啊。其实我们也是觉得是一次啊非常这个有意义的巧合。那么我们也是希望能够啊这个啊希望啊我们更多的啊这个啊女性工作者。

然后能够加入到咱们的这个大模型的人工智能浪潮中来。那么我们接下来就啊首先啊这个欢迎我们的第一位特邀讲者啊，是来自于智源人工智能研究呃智源人工智能研究院的副院长啊，兼总工程师林永华老师。

然后来给大家介绍基础模型啊，基础大模型工程化打造AI中的CPU的啊主题报告。那么大家欢迎。

好，谢谢。喂喂呃，有声音吧。喂，好，那个呃呃谢谢谢谢这个刘老师的介绍哈。那今天呢嗯今天上午可能我们的整个大会的 kickickoff的时候，呃，大家也看到了呃智源发布了这个天鹰大模型。

所以我也趁今天这个报告的机会，一方面想跟大家大大家分享一下我们在打造大模型的过程中，为什么认为是说需要以工程发化的方式来打造大模型。

并且为什么他就像AI中的CPU同时呢也利用这样一个top给大家介绍一下天音大模型。呃，但在这里头我想先说一点哈。就是说呃因为我们的ta report还没有出来。

所以有点抱歉的是今天的整个toplk一些具体的指标的数字，可能都不会呃呃跟大家那个往外去去说啊。😊。

那个可以期待我们的ta克 report。等一下啊。好，那首先是说为什么呃我们会认为哈基础大模型它去打造它的时候，就像打造AI中的CPU。😊，实际上首先我觉得第一个最重要的是说。

它的一个单一产品的投入是巨大的，已经成为了整个AI里头。如果我们说是一个基础的大模型，百亿甚至千亿规模的大模型。呃，它的成本是很高的那在这里头呢呃给大家分享一下哈。

这是我们的一些呃呃具体用我们具体的practice以及去预估的一些数字，因为有一些东西不好disclose出来，所以大家就是主要是看这个比例。那首先大家可以看到是说对于几百亿的模型呃。

蓝色的是我们的用于训练部分，所有的我们需要的呃呃蓝色是数据训练数据。因此，我们为训练数据所需要花的人力，我们的计算，我们的处理等等，这些加进去是多少。那灰色的是我们的训练部分呃，包括里头包括人力。

也包括我们的机器的花销。那还有橘色的部分是评测的部分，也是包括人力和花呃和和算力。那。看大家可以看到，对于几百亿的模型，它的用于数据上的投入跟训练时候的投入已经可以相当。所以从一个侧面说。

为什么数据很重要那另外一块也是想提起大家的注意是说评测很重要啊。但这里头有一些东西是没包括进去。例如是说我们因为去ex一个新的模型的架构而要做的很多的创新，那那些是没加进。

因为我们认为那些how我还是可以去分摊到我的不同版本的模型，那这里头就说sing版本，它的一个分布是这样子。那对于330亿这样这样子的模型，它的成本大概是在2000万这样的人民币的一个投入。

那后面如果是说我们把这个拓展到1300亿这样子模型。那在这个成本上面就不一样了哈。那这个还是keep我们以一个T的 token这样子的量来说，那这个的投入的量。呃，是另外一个数字，我就不具体说了哈。

大家只是看这个量。那如果是说我们对于一个一呃千亿模型，一个T的数据不够，我希望让它的数据量变成2个T以上。那大家可以看也可以看到它对于我们的数据的成本和和训练的成本也是有不一样的一个高。

所以总体来说想说的是说，对于我们语言模型来说，它的开发成本是十分高昂啊，但这也值得。因为今天大家也越来越意识到语言模型，它不是仅仅是一个语言模型。它真的会成为我们未来AI中的大佬。😊。

那第二个从第二个角度来说，为什么它是AI中的CPU这么重要哈？因为基础模型它很大的程度决定了后续模型的能力和产业落地的因素。首先是说能那个嗯能力和知识。

其实呃最近那个 metata有一篇文章是讲那个limma啊，具体不说，但里头他的一个SHSAH的一个假设，我是很认同。😊，其实我们。在大模型，尤其是基础模型里面。

所有的能力和知识都是在基础模型这一部分所获得的。所以如果我们在基础模型这一块，没有把它的能力训练好，把它的知识能够训练进去的话，其实对我们后面再做怎么做SFT等等，其实是会面临很大的一个制约。

所以这是第一从能力和知识上，它决定了我们后续呃去持续训练，还是做微调训练的能力。那第二个很重要一点是合规性和安全性。因为训练模型，它的数据的一个干净程度。

尤其是它的合规程度很很很重要的会影响我们的AIGC的应用。毕竟咱们这个语言模型很大程度是会生成内容。那在这里头给大家举一个例子哈。嗯。

commonmon core可能是很多人都很熟悉的一个全球的一个这个。呃，数据集里头我我们关心一下他那个中文数据集的情况。这是我们把里头的100万条中文带有中文的数据拿出来去分析他的站源情况。

发现是说。来自中国大陆的站源仅仅只占17%，有83%的站源是来自于海外的中文网站。所以在这里头就是说从内容的合规性上，从内容的一些的安全性上，这个是有一个很大的一个呃风险在这里头。

而当我们把用很多的用这样子的数据去训练我们的基础模型的时候。呃，其实对我们未来的微调后的模型是具有一定的风险。当然大家可能会说，那我在最后模型的输出或模型的输入，我加一些安全的风控。

但要知道这个不是所有的安全的风控都能够防得住所有的生成。例如是说我们有时候可能会问是说啊中国发生的时间大事。那这种的问题不能不让人问吧。但是他在产生这10个不同的事件的时候。

有可能就会存在一些嗯不安全的一些的输出。那另外呃因为本身哈呃对于我们来说呃，不单我们要考虑这个模型是否可以呃拿出来给更多的学术界的去使用。我们还要考虑怎么可以让产业更宽广的去使用。

所以在这里头呃会考虑这个版权和商用许可。那到底这个基础模型，它是可商用许可还是非商用许可。它的使用的许可，是copy left还是copyright的一个许可，是否具备这种开源的一个污染性。

这些都是我们需要很仔细去考虑的。那这个是从今年1月份到5月份啊，所有在国内国外发布的这些语言模型，我们做了一个简单的统计。多 far在国外发布的语言模型哈，我们记录了有39个。其中可商用。

并且非 copypy left的协议的大模型大约有16个。那这里头例如拉玛，我们也很熟悉，知道它其实是一个非商用的。那意味着我们所有基于拉码去进行做continue train和SFT的模型。

实际上都不能够合法商用的那还有一些是使用了copy left协议的模型。意味着我们通过这种copy left的模型的协议的模型去进行呃 further develop。

例如这个持续训练或微调所得到的模型也必须开源，这是copy left的协议。所以这个势必对产业，如果是企业正规企业要要落地产业，其实是到会造成很大的限制。那国内的情况是什么样呢？其中这个语言模型呃。

我们统计了28个，开源的语言模型有11个，其中直接使用开源可商用的语言的大模型只有一个呃，并且是这只是一个进行了指令微调的对话模型。所以我们看到在基础模型上面。

尤其是来自于咱们国内的啊呃完全开源可用的商用的中英双双语商用的，其实是呃很缺乏。所以这里头就是。我们寻找的实际上是说能第一能支持中英双语知识，这个知识不是只是翻译。

所以这意味着我们需要把大量的咱们中文语言所表达的知识要放到这个预训练数据。第二，我们期待它是支持商用的许可协议，没有copy left的限制。第三是符合国内数据合规的需要的。

所以这个就是我们打造这个ac天鹰呃，悟道天鹰这个语言模型的一个目标。首先第一个就是这个我们希望为产业打造。像刚才所说的具备双语能力，并且是以商用许可协议的开放源代码及模型的系列。第二个嗯。

我们实际上是在设计之初就定下了一个高层的一个设计。我们希望这个语言大模型它有怎么样的一个能力的框架。这个能力框架其实很重要。这个能力框架决定了我们后面所寻找的数据以及我们的评测的方法。最后一点是说。

我们越来越觉得重要的是为整个语言模型的打造，并且是持续打造，需要有一个端到端可持续循环的整一个模型的生产的流水线，打通从数据训练到微调到评测再回环回数据这么一个畅通的链路。所以接这样的一个呃目标。

我们呃今天也是呃开放了这些的一些模型哈。那这里头其实就包括了呃30330亿的和70亿的呃中英双语的基础模型啊，基于这两个基础模型，我们的对话模型，以及呃基于我们70亿参数的代码模型。😊。

其实在这里头哈对我们来说，对话模型和代码模型更多的是一个例子。就给大家看到是说基于这样的基础模型，我们可以怎么进一步的去打造通过SFT去打造我们所需要的对话模型，或基于持续训练。

去训练出我们需要的代码模型。其使用者可以基于他自己的应用需要去重新去做这样子的fin tu。😊，那呃介绍这个模型的时候，首先我想还是给大家介绍一下这个训练数据。

那呃致援我们的中文数据实际上是持续一直在积累。那在这里头也给大家分享一下，我们呃大家可以看一个右边的这个图哈，我们是接近30%多的数据是中文，60%多的数据是英文，这是目前的一个比例呃。

不排除后续我们会有一个调整。嗯，那呃另外第二个大家可以看到这里头的这个分布啊，这个我就不说了。但我想给大家呃强调是说中间其实最重要的，首先是互联网数据，它的一个呃质量。呃。

我们呃整一个的这个中文的互联网的数据呃，检查了所有的它的来源，其中99%以上的是国内的站源。所以这是我们很重要的一个基础，是说它的一个内容的一个安全性和干净的程度。😊。

那第二个呢嗯无疑大家可能做过中英双语模型的一个研发或调研的比较过这个数据集都知道。comparere我们的英文的开源数据集，其实中文数据集图最缺的是第一开源的高质量的文献的paper的中文的数据集。

第二个是我们的开源可呃就可用的这种的书籍的数据集。那在这里头，志远也是得益于国内的一些数据机构跟我们的合作。他们愿意去把他的呃中文的文献数据，还有中文的书籍数据贡献到这样一个模型的训练里头。

那我想这也是因为我们这个模型是以一种完全公益的形式呃，以商用许可的方式再回馈给整个一产业。所以他们愿意跟我们一起来做这个事情，也很在此也很感谢这些呃机构哈。

那当前我们已经积累了超过一点4T token的训练数据。然后并且我们还持续正在增加更多高质量多样性的数据集，也在源源不断的把它训练到的这样一个基础模型里头的训练中。😊，那。这个基础模型啊。第呃第一呢。

他在技术上承接了这个那个像GPT3，还有拉马这些的架构设计的优优点。那另外呢嗯我我想提一下是并行训练哈呃，我们使用了BM train哈，这个来自于刘老师团队呃很好的一个工作哈。

那我们升级了PM chain里头的这个并行的训练方法。😊，呃，他目前能够达到的直接呃可以对标的，例如像mze two呃，以及我们实测是可以在一个具备一个大规模并行范围里头可以达到8倍的训练效率。

那可能大家会说为什么我们不跟zero three比，因为0有有bug。这个给大家贴一下哈，这是我们团队。😊，大概两三周前，因为我们这个训练比较早就开始了哈，两三周前呃呃。

提提交给那个d team的fix了，最后fix了这个zero three的bug啊。😊，那嗯另外呢嗯下一个就想给大家分享的是我们SFT数据的打造。因为这一次我们除了基础模型。

我们也开源了这个我们的对话模型。这也是大家可能在实际用的时候经常会用到的模型。就可能对于更多的一些爱好者或者是更多的下游的一些呃应用企业。可能呃。😊，会直接用到这样子的模型。

那我们在整个SFT数据打造里头是分了四个阶段哈数据采集。然后第二个阶段是根据这个数据的分布进行呃数据分布的分析，并行进行调整。第三个是进行这个SFT模型的测试，以驱动我们的一个数据的迭代。

最后是包括这个重要指令的添加啊，在这里头给大家稍微分享一下。那。😊，呃，不同的团队有不同的数据的采集的方法。那呃智源这边我们是首先我们为了这个数据采集哈，指定数据的采集。

因为它我们可以预见它是一个长久性的东西。嗯，那因此我们特意打造了一整套叫open label这样一套呃。😊，指令数据采集的工具。但实际上它后来已经不单是我们的指令数据的采集和生成的工具。

也包括我们在去reward model的时候，利用来做那个排序标注啊等等的这些工具集嗯。那呃我们使用了就是说包括我们自然内部的有一个呃固定的一个数据标注的团队。

也包括呃向外面啊发起这个数据标注的公益活动，我们叫数据飞轮。呃，我们在3月份的时候发起这个外部公益者这个数据飞轮的活动。我们当时是说等我们储储备到了1万条。

我们就把这个所有的这个在通过公益公益公益呃活动，他们来贡献这个数据呃标注的部分，把这个全部开源出来，整理好，全部开源出来。那正好其实是在昨天我们就把这一部分开源出来1万条。

坦白说这个时间有点比我想象的要慢。我当时就觉得是说一个月就能够至少能够这个通过外部的公益活动能够标注够1万条。但发现其实这个东西不是那么容易哈嗯。😊，但我们会持续去做这个事情嗯。那第二个呢。

很重要的是整个数据分布的分析以及调整。呃，前面说到了，其实我们定义了整一个的大模型，认为我们认为语言模型的能力架构呃，能力的分布。那这个图实际上是对应前面那个图，我们会分析是说我们的。指令微调数据集。

它对于我们那个需要的能力分布来说，它从指令数据的角度，它的分布是不是能够对应上的。嗯，这不是我们目前的这个这个图哈，这个是稍微比较早期的一个分布图。那当时我们出了这个分布之后。

我们就会看哪一些的方面的能力的数据偏少啊，那因此我们需要增加那一部分的数据的能力。嗯，实际上我们一直有一个理念是说SFT的数据集不是越大越好。其实合理的，应该是说我们的基础模型很强。

然后我们只需要少量高质量的SFT数据来让这个模型发挥很好的它的知识的一个执行能力。所以我们一直实际上在控制着我们这个指令微调这个数据集的大小。啊，这一点其实是很重要啊。嗯。

松发实际上我们一直控制到今天为止，大概就是十几万指令这样子。然后我们比过我们因为本身我们也有一个几百万甚至1000万的一个指令微调的数据集。啊，包括有一部分也开源出来。比过是说到了今天为止。

用这个数据集来翻就同一个基础模型，已经超过了用1000万或500万那个数据集来翻进这个基础模型了嗯。那再往下一步，就是说。我们持续的需要去构造这样一个迭代的过程。

当我们呃这个呃SFT指定微调这个模型出来之后，我们会经过人工评测，看到它的不好和好的。然后呢，不好的那些case，我们会在一个很大的其实也就是1000万条的那个数据大的指定指令的数据的铺那个池子里头。

通过检索方法把一些能力吻合的一些数据拿出来来呃进入到我们的下一个版本叠加到下一个版本。所以大家可以看到这个呃微调数据及呃，前一个版本是蓝色，上面一个版本是红色。其实我们持续的这样子去自动迭代。

就除了人工来评测那个SFT的那那部分会会会是人工，剩下的就会是自动的。去呃调整我们的微调数据集。那最后一个呢，对我们也是很重要的一块，就是一些重要的指令的添加。那在这个过程中，首先是左边这块。

就所有的我相信今天呃要放出来的对话模型都必须要做的是安全安全的这个的安全伦理等等的这样子的一个评测呃检测。那自然本身我们是有一个专门有一个re team。我们把它称之为re team哈。😊，嗯。

他们专门是帮助我们去评这个backcase，并且我们这个read team的选择是他既不是我们做前面就等我说到那个每天做这个评测的那些评测人员，也不是我们做数据集的人。

他是完全一个separate team啊，然后不好的那些问题肯定要有重写这个答案，让他呃放回到我们的指令微调里头啊。

那另外一个呢是呃我们在这一次也定义了这个去构造连接一些应用或连接一些其他模型的指令数据。呃，很简单的定义了这个格式啊。然后因此他可以帮助我们去很好的去链接其他的模型。例如在这里头有两个例子。

一个是文声图的例子啊，上面说请画一只戴眼镜的狗，然后他就可以自动的去生成。呃，这样子的response哈，其其实这个response里头前面半句话是说我作为一款文生文本生成模型，我没有这个能力啊。

那后半句话它就真正的输出。如果我们要真的未给一个例如diffffusion的模型，那它就直接生成一个格式，一个特殊的字符的格式，以及后面需要用到的promp。😊。

那我们这一次实际上是集成了两种不同的模型，这其实是一个范例。呃，所有人如果用这个的模型，也可以用自己的方法来去同样的格式，就可以扩增自己要接的更多的模型和工具。

那这个呢是今天呃上午如果有看到这个呃黄老师他呃的demo哈可以看到的嗯。

第一个第一个实际上就是呃我我再放一遍哈，是这个但其实其实这个飞机这个是一个多轮对话，是一个多轮对话的。嗯，然后呢在下面呃这个这个还是一个多轮对话的一个场景嗯。😊，然后这一个是高考作文。

其实我们这一篇高考作文大概800字左右，生成的时间那个不不到10秒钟嗯。其实这没有什么magic，其实这得益于说我们这个demo里头用的仅仅是我们的这个70亿参数的模型。

那这个就是我们通过刚才那个指令啊，来能够在同一个语言模型里头去应对呃用户说要画图的这样子的一个。然后背后实际上是调用的是我们的al diffusion啊，在这里头呃。

其实我们放了这个我们的demo放在外面的demobo。呃，甚至大家先那里头是放video哈。大家到时候如果看到我们的同事在那可以要求他们去给你实操哈，其实我们是可以实操了。在那呃。

我们在这个上面其实也可以用不同的语言，包括韩语，包括西班牙语，包括法语等等。我们支持18种语言的文声图。正好就跟我们这个语言模型，他其实也已经具备了多语言的能力进行一个结合。

就是用不同的国家的语言去输入给 chat，然后让他生成相应的图。😊。

那最后这个是一个呃。把一个复杂的一个人脸编辑的指令啊，自动的划生成呃好几个step，然后背后是调用了我们新出来的一个叫instruct face的这样一个模型啊。那至于这部分的工作，大家可以留意。

明天上午呃AIGG就是内容生成呃生成模型的那个呃workshop，我们会有介绍嗯。

好，那下一个呢是说嗯我们这次发布里头其实也给大家提供了那个代码模型。那我们认为其实代码模型它会扮演着未来，尤其是面对企业应用，企业用户场景很重要的一个角色。那这次我们的确是说首先我们用的数据集。

我我觉得我们也比较lucky哈。当我们刚开始想做这个事情去try我们的acque base的这个模型的能力的时候，happen。😊，the stack这个数据集出来了啊。

你是不是也得follow copypy left的这个规范，现在没有法律去规定，但是有这个风险。所以我们倾向于是说只保留有版权说明，并且只有copyright的这个数据集。但我觉得我们是比较新运。

刚好他们开源了这个数据集。那我们对里头也是做了很多高质量的过滤。那在这里头我们啊在这里头我们也是做了另外一个很重要的。

就是说在我们训练这个数据训练做我们拿我们其中比较早期的一个ac base的一个7B的模型来做持续训练，就已经达到很好的一个代码生成的效果。那同时我们除了在英伟达平台上。

我们还在天数至星的这个呃咱们国内的另外一家呃GPGPU架构的一个平硬件平台上做了1个32台服务器，一个classlast上面进行训练。呃，这个整个训练下来的还是相当稳定哈。😊。

所以这次这也是去想说的一下，是说国内实际上咱们一些国内的芯片收发目前呃，除了在芯片吞吐量上的确还不如英伟达。但是呃当我们push去解决一些更多的算子优化的问题之后，其实是可用的。

例如在这次我们把东西买贵到天数的平台上。我们也帮助他一起买enable了像fsh attention这样子的最新的加速算子在他的平台上。好，下一个是说评测呃，评测我是认为相当相当的重要。首先为啥重要？

咱们如果要训至少这种像我们这种百亿以上的几破300亿的模型，每天要花的训练成本是超过10万的。所以在这个过程中，我们认我认为哈就是说训这种很大的模型，它真的是大船难以调头。

我们如果是说不每一天盯着这个评测，每一天看他这里头有什么问题，你真的是放手让他训一两周，有可能出了出现了什么问题之后，那已经可能有可能这一两周就已经过去了。这中间所耗的成本是很让人心疼哈。

那所以我们在整个过程中都必须关注所有的细节，用来对训练的策略进行及时的调整。然后甚至对训练的数据也要进行及时的调整。另外是说嗯实际上本身大模型的能力是很复杂的。

我们肯定不能够只依赖去看training loss和 validation lost。根本他们这两个lo不能代表一切。那在传统的下游适配这种评测的任务。呃。

又有现在新的像ham为代表的这种incont learning的方式来进行评测。其实他们是用于模型在不同的一个训练阶段啊。那另外因为毕竟咱们这里头是一个生成模型。我们还需要去盯这个生成模型。

它的主观评测。之后，它的生成能力。另外模型的SFT这种微调的能力也是很重要的，需要考虑的部分啊，所以。这个是我们认为就是说整一个评测，正因为这个模型很复杂，训练成本又很高昂。

所以我们需要很紧密的去通过评测来盯着他的所有的性能。那在这里头给大家看到是说我们这个模型。真的是整一个回还，我我就不说了，因为时间关系。那这是天音我们目前啊就是说执行的，就是说按分钟和小时算的。

可能是像这种每天至少两个point来做任务的评们里头已经ex了所有的中原来只有英文我们exend中文的部分啊中英都能评测。然后每天至少有一个point要做主观评测优选的模型。

我们甚至会进入我们的评测那整个评测体系实际上是呃依赖于我们这个叫天秤也是今天发布的那这里头不花时间介绍。明天下午在AI开源论坛，我们有专门有这个评测体系开源评测体系的介绍。啊，这个我也不说了哈，对。😊。

嗯，我们在这个评测体系，其实它也是一个很重要的系统工程啊，要自动实现自动化的评测，实现边训练边测啊，包括我们实现要实现评测结果，可以支指导我们的模型训练。还有需要对各阶阶段进行那个优化。

就用更少的并行的一些机器来去支撑好我们高效的一个评测。那另外呢呃对我们很重要的无疑是下面的这套这个infrastructure。这次我们是基于智源本身就有的九鼎这个呃专门为大模型训练开发呃打造的平台。

那我们在整一个里头其实是across了几个数据中心。但是每一个classlastster都很tpical的，都有它的训练的集群，微调的集群，以及它的这个评测的集群。呃，这几个集群必须要放在一起。

否则中心与中心之间光传每天传几个trypoint的时间，可能都要花好几个小时。那嗯这里头说法可能最最后一两页了哈。😊，嗯，首首先我们认为哈这个基础大模型为什么回到这个这个CPU的这个说法？

因为我们希望是说以CPU方式借助像tkt这样的方式来构建大模型一个周期性发展的路线图。就我们希望从资源的角度，我们不是今天只是发了一个模型就就就就完事了。

我们希望是说可以去定义未来可预见和不可预见的创新来构造我们后面的ro map所以大家可以持续的关注说我们未来啊不断的去更新我们的模型的版本啊。

我们会这个这个时我们会源源不断的把我们的预训练的海量数据继续往里头去压那个模型。呃，我们可应该是今天或明天就全部开源出就就就会开源出来。但是这个开源的版本不是我们的最终版本。

我们觉得这个模型的能力是需要被持续提升的啊，所以这个是可以被期待的。同时各种大模型的新技术，甚至。😊，产业的需求也都会源源不断的加到新的版本的模型中。所以我们觉得是说打造整一个可持续往前走。

包括从数据到训练到评测，以及它的回环，是目前我们看到基础大模型，它的一个发展很重要的一个基础设施。

那最后说一下，就是说呃支源悟道3。0哈，今天也全面发布了。有我们从去年年底开始发布，一直到今天。那这个是给大家看，我们呃认为的整个大模型。我们说话资源悟道里头的模型数的确是说没有基础模型的生根。

带不来枝繁叶茂，最重要的是其实是得先有最下面的这些越往下越重要。这些基础模型。😊，好，这个是开源仓库的地址。然后大家如果感兴趣，建议大家可以扫一下这个二维码。这是我们这个呃。😊，呃。

这个f AI我我我们的这些开源的模型都会放到f AI里头。那这个是我们的这个呃这个开发者群。然后希望呃自然可以帮助通过我们的持续创新，持续迭代，持续的产出，可以帮助推动大模型的发展。谢谢大家。😊，好。

那感谢永华老师啊，那个非常精彩的介绍。啊，这个没想到这个现场已经座无虚席，而且站了这么多同志啊，那就辛苦大家了。那我们接下来啊就有请我们的下一位讲者啊，是刘印涵女士。

他现在是啊rch AI的核心创始人和CTO。那么在呃创业前啊是这个facebook AI research的啊研究员。那么他呃非常著名的作品应该是大家耳熟能详的啊这个robota，还有bart啊。

那应该是我们啊这个非常重要的几个啊这个预训练模型哈，早期的预训练模型。那我们接下来就欢迎啊这个刘女士来给大家啊带来他的精彩报告。😊，可以。

首先非常感谢志远啊，给我这次机会站在这里和大家一起讨论一下大语言模型。我先做一个简单的自我介绍，我叫刘艳涵，我来自天津，现在居住于下雅图，几年前。

我跟我的几个朋友一起创建rch AI我们致力于开发一种ss产品。啊，tget的客户群是医疗工作者。所以我们我们的产品主要是聆听医疗工作者和客户的对话，这里的客户很多时候都是病人。

然后进行文呃进行他们对进行对他们的对话进行梳理，然后写入客户的数据库或者病人的病例。呃，这样的话呢，医疗工作者可以更加啊把时间用在和呃病人怎么讨讨论病情或者解决客户的问题。

而不需要用过多的时间去document这些nose。所以这就是我们刚开始创始的目标产品。那我做一下在在开在。😊，创建boch AI之前呢。

我在facebook AI research做啊自然语言自然语言处理啊，就像刚才介绍的一样，我发过的 paper里包括有robotabart和Mbart啊。

所以今天呢我想跟大家讨论一下reinment learning with human feedback。在过去的一段时间呢，大语言模型风靡全球，尤其在research领域。

大语言模型主要从arma到appacca这种pretre到f tune。但是呢我觉得大家过多的过多的注重这个pre和翻 tune而忽略了一项非常重要的内容。

就是reinforment learning with human feedback。那我今天呢想从不同的角度来讨论一下这个reinment learning with human back human feedback的重要性。

这是今天的da。首先呢我们从产品的角度来讨论一下，为什么我们需要大语言模型。之后呢，我们再讨论一下，我们怎么样利用搭建这样1个AI产品，让大语言模型更好的发挥其价值。

然后这里呢就运用到了reinforment learning with human feedback。之后呢。

我从技术的层面去讨论一下reinforment learning with human feedback啊，在大圆模型中是怎么实施的。最后呢，我们回过产品的角度去展望一下我们在大圆模型当中还可以做什么。

让他更多的发挥价值。好，那谈到产品，那无非就两种产品，一种呢是面对消费者的。另外一种呢是面对企业用户的那面对消费者的话。很重要的一点就是我们需要产生的文字是消费者想要的那在此之上呢。

是产生一种个性化的文字，是能发挥呃消费者更大的个性化。那举一个通俗一点的例子，我有一个朋友，他呢是一个职业的演讲者。他每年都会被邀请到世界各地去演讲。然后自从GPT出来以后呢。

他就会试图用拆GPT去写他的演讲稿。但是不管他是用什么样的prom得出的演讲稿总是开头是lad and gentlemenman这种文绉周的气势磅礴的一个开头。

但是其实他所需要的是一个更加接地气的一个更温柔的一个开头。所以呢他每次都会进行大量的修改，同时呢他有一些特别的个人经历，他总会写在自己的演讲稿中，还有他个人的一种呃幽默感写的讲讲稿中。

所以呢他每次在chGP产生的文件当中都要进行一个很多的修。不改然融入他的个人风格。所以对于呃个人用户，其实每个人的演讲风格，每个人的写作风格是很少发生变化的。所以如果我们能更好的收集这些客户的个人风格。

那这样呢下次让客户再使用这种大原模型时候产生的东西，就是更贴近于他们所需要的东西，这样我们可以减少他们的编辑，提更好的提高他们的效率。好，那我们现在讨论一下，面对企业用户大语言模型。

现在的大语言模选所所稀缺的东西。第一点呢是了解特定的语言环境啊，举一个例子，因为我们是一个医疗产品。所以我们的客户大多数都是医疗工作者。那有一个 phraseze叫做术modifications。

在我们的日常生活中，这句话的意思呢，就是改一下鞋跟从高跟改成低跟或者矮跟这种，但是呢在医疗行业其实这个是一个啊tment是一个治疗方案，是治疗怀腕关节的一种治疗方案。

所以呢现在这种非常通用的大语言模型很难了解到这种特意特殊的语义。那那还有一种呢就是公司的内部的政策和呃和policy和nledge。那举一个再举一个通俗一些的例子。比如说沃尔玛的退货原则呢。

就是30天无条件退货。但是呢costco呢只是15天无条件退货。那沃尔玛呢是可以退货。只能退货成一个coupon的代金券，你下次可以使用。但cosco呢是可以退货退回到你的信用卡或者是现金退货。

那这种特别的公司内部才知道的nledge和policy政策。大一个通用的大语言模型就很难做到了解。所以这个时候我们就有意义去搭建一个个性化的模型，来满足不同客户的需求。那怎样加建这个个性化的模型呢？😊。

我们现在来讨论一下啊，这s呢就是建立一个实时的AI系统。那我们这是一个非常重要的啊一点。因为这个实时的AI系统可以更有效的接收客户的使用啊feedback。那我们。我想在座的各位都应该很同意一件事情。

就是AI现在不能取代人类，这就是我们现在存在在这个地球上的意义。那我们具体的讨论一下，为什么他不能。😡，首先第一点，我觉得AI更像是一个小小小帮手小助手。比如说我需要写一篇500字的做高考作文。

那AI可能10秒钟就写完，我需要用20分钟或者是更多的时间对它进行修改，采纳其中的某一些段落，然后对另外一些段落进行修改，然后体现我自己想要的这个作文风格和文采。那这个呢是AI现在做不到的。

是因为人他不了解人到底需要什么，人是最后做做决定的，最后决定是否采纳，最后决定我提交什么。然后呢，所以这是一个人和机器共存的时代。现在所以习器更是一个小助手。那这个时候呢，我们就发现了一个很有趣的现象。

那就是人类到底是怎样编辑这些文件。然后最后提交的那比如说我用AI写了一篇500字的文章。然后呢，我删掉了重写。那说明AI产生的东西根本不是我想要的那也有可能我用AI写一篇500字的文章。

我只改了10个字，我只加了一句话，那就说明这个AI产生的东西就是客户想要的，或者中间呢我改了200字，in the middle。

所以呢这个时候我们就发现啊这个信息其实是一个很好的评估系统能了解AI的performance，因为大家都知道genrative AI最重要的一点。

就是这个performance matrix是一个非常主观的。因为有的人每个人每个不同的人都有不同的tste，不同的品位和不同的偏写，所以它很难量化。那这个时候如果我们有这样的一个实时的AI系统。

我们就可以量化的。😊，收集到客户的信息，然后以客户做个多少修改来评测我们所产生的文件是不是用户喜欢的想要的需需要的那这样的话呢，我们就建立个很好的一个评测体系。正像我刚才说的，我们主要面对是企业用户。

那企业用户中有一个很重要的特点，相比较个人用户，那就是企业用户的员工一般都是受过训练的。他们了解公司的策略，他们了解公司的nledge和policy。

所以对于这些企业用户的feedback是具有更高价值的。아。但是即便如此，我们还需要建立一些filter fu掉一些没有意义的意义的低质量的feedback。

那这个这个fil这个filter是一个非常case by case的情况。那我一会儿呢会举一个具体的例子。然后呢，大家可能更好的啊了解到。我们这个filter怎么建，我一会会提到更详细的信息。😡，好。

那我现在收集到一个非常重要的信息，就是用户的使用信息，用户的编辑信息和用户最后提交的信息。那用这个信息，我就有足够的数据量去训练一个reward model。

那这里我有一个非常非常strong的 hypothesispo。这 hypothesispo就是用户最后提交的信息。是一个更高质量的用户更想要的信息，相对于大语言模型最初产出的信息。

所以这是一个自然而然浑然天成的training data set，非常的高质量。那当我们得到这个training data set的时候，我们就可以去训练一个很高质量的reward model。

最后呢运用强化学习不停的提高我们大语言模型的质量，让它既越来越产生人类想要的答案。😊，所以在不远的将来有一天，AI或许可以取代人类，这是一个让我们既兴奋又值得呃担忧的问题。

但是我们现在先呃更紧重愿这份兴奋，然后把担忧留给以后。所以今天呢我在这里讲的是大语言模型的应用和价值。希望不久的将来有一天，我站在这里来讲人类存在的意义和价值。😊，好，那我们现在举一个例子。

具体的例子啊，这个是我们刚刚部署的一个客户的一例子很像，但是不能不完全一样。那我们在这里来讲一下怎么运用大原模型，怎么运用人类的反馈信息，搭建一个实时的系统来收集反馈信息，然后去处更好的model。

那这是一个呃很贴近生活的例子。那一个客户呢打电话说啊，我4月份的时候。😊，买了一个printter，然后呢，现在降价了。然后呢，这个时候这个接话员呢就会做两件事。第一件事，我要调出这个客户的信息。

确定他确实在4月份购买了这样的一个一个打印机。然后呢，我要看我这个客户，他是一个什么样的客户，他每他的消费频率是什么。他是不是会员，他每次消费的额度是是什么。当我确定哦这是一个非常非常高价值的客户。

我想让他开心，我想留住他，我想让他持续的在这消费。然后第二件事呢，这个接线员要去查一下公司内部的政策。那公司他的退款的政策是什么？他可能是60天内60天内降价可以退款。但是如果60天以后就不可以退款。

那结合这两款两者信息，接线员做出最后的决定，那就是告诉这个客户，首先先抑后扬告诉这个客户嗯，60天的退款政策已经过了，所以我们现在不能退款。但是你呢是一个非常非常有价值的客户，你非常的特别。

我们为了你愿意跟。😊，更改政策，所以我们决定给你一个代金券，你可以下次使用。那这个在这种情况下，大语模型可以做到怎样的应用呢？首先大语言模型有聆听这段对话。然后呢，他做了很重要的第一点是。

虽然客户有说我4月份买了一个打印机，但是呢现在降价了，他没有提到一个词，就是退款。但是大语言模型可以以上理解他客户打这个电话的目的是退款。然后呢，他会收收集公司的退款政策。

那找到OK60天内是可以退款的。但是60天后是不可以的。同时呢他又走到客户的他又走到呃客他又走到dabbase去找到客户的信息，然后觉classify这个客户是一个高质量的客户是一个呃是hiy6的客户。

然后结合这两种信息。大语言模型推荐给了接话员一个回应，那就是可以可以给一个con，给可以给一个啊代金券下次使用。那我们的接训言呢是很聪明的。他们受过专业的训练。他们知道怎样说才能让客户更开心。

那接线言呢采采纳了大语言模型的推荐，就是哦OK我可以我不可以退款，但我可以给一个cupon。但是呢他用了一种其他的方式，更好的更愉悦的传达出这份信息，让客户更开心，听起来因为客户会觉得哦，我很我很白手。

我很特别。😊，那这个时候呢，大语言模型。就在后面收集到了这份信息，然后他就学会了。好，我去我下一次去训练一个排序模型。我下一次的时候我会用这种方式去说，让这种方式可以让客户更开心，更满意。

这个时候他会进行强化学习，收及到这个信息。那回到我们刚才说的futer的问题。那不是每一个接线员都很优秀，总有一些人是销冠，总有一些人卖不出去，总有一些人会惹动客户。所以呢这里很重要的一点。

就是大语言模型，同时还会监督去查找这个客户，下一次有没有使用这个消费，有没有对这次谈话进行满意。如果满意度很高的话，然后下次进行更多的消费，那说明这是一个很好的agent，这是一个很好的客服。

那我会给一个更更高的权重来学习你的话术。那如果这个客户就toto的diappear，再也没有出现过。😊，那就证明这个客服可能说的话术并不好，不是客不是用户想要听到的呃话术。

那这是一个分这是一个非常不好的数据，那我就会把它filter掉。所以呢所以大语言模型会很聪明，然后再进行强化训练一段时间后，那大语模型的target就变成销冠。😊。

这是一个很 ambitious的 goal。😡，好，那既然我们已经讲过了嗯大言模模型和reinforment learning with human feedback在啊日常在产品角度上的应用和重要性。

还有搭建这个实时的嗯。系统的重要性。那我们现在讲一下到技术层面去讲一下这个是如何实现的。呃，首先这幅图是引自于open eye去年3月份发的instructGPT的 paperper。

那我们清楚看到这里有三步。第一步呢是open eye收集了客户呃，收集了用户使用pro的信息。然后他们进行了人工的标注，然后训练了一个SFT model。

我想大在座的各位都对SFT modelel非常非常的了解。所以我今天就不在这啊得多过多的讲述SFT model，但请大家记住这个词SFT我们后面会用到啊一个监管的微调。😊，那第二步呢，就是他们做了一个。

第二步，第二层次的标注，然后作为一个reward model。他们的标注呢是每个用户给的这个prom X，然后不同的model会generate出不同的Y。然后他们有请啊标注源去标注，为了保证质量。

他们的engineer也进行了标注，他们标注了一个排序，就是这个model产生的X比另外一个model产生的呃，这个model产生的Y一比另外一个model产生的Y2质量要高。

那就是Y一大于Y2这样的一个排序标注。那回想我们刚才讨论的AI的呃实时的一个系统。那我们刚才有说了一个非常重要的hypo。

那这个Hpo就是我们觉得用户最后修改过的提交的文本是更有价值的是用户更想要的文本，相对于大原model，最初产生的文本。所以我们就浑然天成的运用了这一个排序。所以我们的用户其实在为我们标注数据。

而且我们的用户是专业训练过的用户，他们更了解。他们的数据。那好，我们谈到谈到这个reward model之后，我们走到第三步。第三步呢就是用reforment learning啊。

这种强化学习去improve这个大语模型啊，我们可以看一下啊，它首先呢先给了一个prom X这个时候这个policy这个policy就是经过强化学习啊，训练过的一个中间量的一个大语模型。

它比最初的大语言模型稍微聪明一点点。然后呢它进行了一个generation，然后产生了一段话。然后产生完这段话之后，人类进行呃然后reward model对它进行一个评估。然后评估完之后。呃。

根据它的output之后做一个back proag，然后去更新这个policy。所以我们看到啊reinforment learning顾名思义它是。它不是一个supervise的 training。

它不是一个监管的训练。所以在整个的训练当中的havy lifting是reward model的值。所以reward model的质量是最至关重要的。啊，回到刚才我们说的搭建一个实时的AI系统。

所以我们的reward model对训练值是我们客户客户使用的数据集。所以啊所以我所以搭建实时的AI系统是非常重要的。

也是一个非常聪明的方式去收集这样的一个high quantity的 data set。好，那我们现在具体的讲一下什么是reward model。那reward model通俗一点的去讲啊。

就像一个高考作文题一样，X就是prom就是作文的题目。Y呢就是不同的考生写出的作文。那fin呢当pri是fi的话，就是它的啊参数是fi的话，那我们就可以想象成不同的老师去评估这个作文。

所以reward model其实就是一个评估体系。它的它的输出就是一个评估体系。它可以简单成为一个人为的评估，就是一个老师当给定一个高考题目的时候，对一个学生的作文进行打分。那我们讲一下啊。

就是reward model去怎么modeling它。那最简单的方法就是用一个enco only的一个mod一个model，比如说b啊或者是robo这种把X和Y在一起。

然后呢用CO token上的inbedding做一个proion，然后呢产生了一个。所以这里很重要的一点ward model的输出值是一个数，就是比如说你的作文是个98分97分这样的数，而不是一个向量。

那openI呢，他们用了一个deder only呃，很类似啊，就是X和Y在一起，然后用EEOS token做了一个proion，然后呃输出个一个last之后输出个一个slar。

就reward model的值。😊，好。那我们回顾我们刚才说了，reward model，它标注的数据集是一个排序的数据集。也就是说我们有说Y一大于Y2这篇作文写的比那篇好，根据所给的题目。

那这个去modeling这个的话，一个非常著名一个非常常用的model呢就是呃bray modelel，它是一个啊概率的数据概率的model呃，它往往就是predict一个派re哪个更受喜欢。

哪个呃质量更高。所以他的数学表达式呢。我们用PIG相当于呃YI大于YG的可能性。也就是说，当给另一个高考作文题X的时候，考生II写的作文比考生J写的作文好的一个概率。

那它的数学公式是PIG除以1减PIG的G等于这两篇评分的差。那我们把这个公式稍微转化一下，我们就可以看到。PIG这个概率I作文I好于作文J的概率，就相当于作文I的分数减去作文J的分数的一个函数。

那么讲一下它的al function呢，那就是我们尽可能的当我们的标注是I作文I比作文J的分高的时候，作文I好于作文G的时候，我们让这个概率尽量的大，所以非常简单，也非常直观。Yeah。好。

我们现在讲的是啊PPO啊 reinforceinment learning with human feedback里最重要的一点就是PPO嗯，首先呢这是2017年open AI发表的一篇paper。呃。

他在reinforment learning中扮演了非常重要的角色。但是非常遗憾的是。至今没有一个任何一个大公司。

有开源他们的reinment learningning with human back是怎么实现的。所以呢我们只能去猜。呃，在这里呢，我们有rch自己有imment这套系统。

而且我们确实得到了一个比初始SFT更好的policy。我们有进行评估。aga，我们的评估人就是我们的用户，我们用户确实的告诉我们，他们觉得现在输出的结果是他们更想要的结果。

那好我们先讲讲一下最简单版本的reinance learning with human feedback。啊，所以这个有在这里有两个gs，一个是cep，一个是value。

那原始的open add paper呢，还有一个antropy啊instruct gPT呢还有另外一个 term。但是我们有我们的 implementation只有这两个 term，我们发现结果会更好。

那是不是加上 entropy和其他的grading average会更好呢，我们不知道我们没有试，所以我们今天因为时间有限，先讲这个简单的。😊，好，那clip的定义这个非常的复杂。

而且这是reinment learning，所以是强化学习跟我们大元模型关系不是很紧密。所以我今天先粗略的概括一下这里如果大家感兴趣的话。

具体的公式需要重新回到2017年open去具体的理解一下它它是怎么样实施的。首先这里呢有两个变量啊和一个primeter参数，那变量是A advantage，然后还有变量rac。

然后参数呢是eponon在这里我们用的是0。2，我们foopen eye呃2017年的paper用的0。2。那我们可以看到啊这是一个clipc呢就是啊在rac ratio是一的情况下是什么意思呢？

就是我的更新之后预测的每一个token的pro和以前的以前没有SF的预测的每一个token的 probability是相同。😊，红豆。那这个时候racial就是一，也就是说我的model没有更新。

所以呢。😡，它这个clip就是相当于advantage是正值的时候，那我们的clip到一加apson就是1。2。如果advanage是负值的时候，那它c之后是0。28。

也就是说我让它的更新永远在一个范围内不会过度的走的非常的狂野，所以只在一个reagion内进行更新。这就是他这个clip的意义所在。

那我们讲一下racial和adage advantage呢是reward value减去value。然后reward呢和我们刚才调到的reward还不是完全一样。我后面有讲具体reward的定义。

那我现在讲一下value啊value和reward关系。那reward呢相当于就是啊一篇作文整体的分数。那value呢相当于每一个词输出的分数。所以我这篇文章洋洋洒洒，我里面有很多词是非常细节的描写。

每个词都很优美。那这样的话我的value高，我的reward有也很高。但是我也有一种文章就是我的文章整个利义非常非常的标心，就是我的文章整个每个字看着平淡如水。但是呢如果你去深挖的话。

它这些平淡如水的文字联系在一起，却产生了非常深刻的意义。那这种文章呢，它的reward可能很高。但是它的value并不高。所以这个时候tage就是表他们俩之间的差，但是advanage具体的。😊。

ation要比这个复杂了很多，这只是一个简化的一个概念上conceptual的一个理解。那如果想要真正去明白advanage是怎么定义的，还需要走到啊走到2017年的那篇paper里，还有具体的定义。

我们的in implementationation有 for2017年的paper。😊，那像我刚才讲到的racial racial就是相当于我现在这个policy相比较以起始的SFT到底做出了多大的变化。

那如果我啊变化非常大的话，那我rac就会非常的大racial的绝对值会非常的大。那我几乎没有变化。那么raial就是一。好，那我们现在回到这个大R，这个大的re是怎么定义的？

这个大R呢是reward value，这个reward value就是我们刚才讲到的啊，给个一个高考作文题，然后呢，一篇高考的文一篇作文的文章，然后被一个老师做出了评估得到的一个值。

然后第二个 term就是KL diverg。那第二个特目存在的意义是。😡，PPO就是我当前的policy，然后refer就是啊SFT model。那我们往后退一步来讲这是一个什么意思？

那我就相当于1个0到100的一个变化。那翻ning就相当于一个10per散的微调。那PPO其实相当于一个。two percent的一个微调微微调。所以我们叫它微微调。那在我们实施PPO的时候。

我们其实只有最后两层layer有进行更新，其他的layer我们全都freeze掉。也就是说它真的是一个微微调。所以这KL diverg的意思就是我尽可能小的改变我的参数。

然后得到一个尽可能高的reward value。😡，之所以这一项之所以KL diverg在这里，它存在的意义是在很多时候AI是非常聪明的，他会学会怎么作弊。他有时候会写出非常非常不好的文字。

但是呢却拥有很高的reward成绩。所以这个时候KL dive就可以限制这种情况的出现。😊，那我们在这里引用一个 face的图啊，当我们给出一个prom x的时候，啊。

刚开始的model就是SFT我们刚才提到的那幅那那一套啊pri，然后呢PPO是一个微微调过的一点的一个model啊，像他所说的我们fr。然后这个时候呢它输出稍有变化，不是很大的变化。

这个时候啊我们进行每一个token的的，然后进然后进行做他们俩的ra，然后根据ra去决定KLrg，然后加上我PPO出来的啊X的reward value，然后加在一起做grad。😊。

然后再重新去更新我的PPU我的policy model。这就是整个1个PPO存在的意义。好，我们讲一下这个KL，这也是一个很著名的一个公式。那就是呃moto cover pro of KLrg。

所以我们用的是prob的 ratio减去一减去log probability ratio呃，减去呃 ratio。所以呃这里不是用这里不是这里这个呃公式也是2017年非常经典的一个公式。

如果大家感兴趣的话，可以回到最初始的reinment learning的paper里去找一下。好，那我们现在讲一下这个valueu function。😊，就像我刚才说的。

value function就是对于一个每个字的评估。那reward呢是对于整个一段话或整个一篇文章的评估。那这个时候我们这个 term的意义就是minimum square。

所以我们让每一个字更有价值。😡，当我们的整个文章的价值固定。那举一个简单的例子啊，40分钟的脱口秀那。我们更想要的是在这40分钟的脱口秀中，金剧频出，而不是有刚开始有一个5分钟非常高潮的段子。

之后后面30分钟非常bo，让大家想睡觉。所以第一种情况是这个PPO model更想要的情况。所以呢我们加上这个加上这个min square，就是限制一篇文章，它仅仅有个别字非常出彩。

而整体整体非常呃无聊。所以他是想要每个字都很出彩。所以这就是整体的1个PPO。😡，嗯。好，那我们讲过技术，那我们回归到产品。我们大语言模型的未来的展望。然后想想我们大语言模型能做什么。那这产品的角度呢。

我想引用我们客户说过的一句话。😡，现在的genative AI只是一个point solution。我们真正要搭建的是一个平台。那这回到我们刚才讲过的一个例子，就是客服的例子。

那么当大元模型决定我们的decision是我们可以我们不可以退款。在这因为你已经超过60天。但是呢我可以给你一个代金券，你可以下次使用。当大语模型做出这个决定的时候。

他不仅仅给客服这样的一个啊指定让客服去去去把他呃传达给消费者，而他同时呢可以一术这个refound的，同时呢可以给消费者发邮件，这样的话，客服其实什么都不需要做。

他只需要做在那里去读大元模型告诉他要怎样做。然后大语模型会给他采取所有的fo up options。那这样呢才能更有效的节省人类的时间，更有效的代替人类。😊，那我们再举一个日常生活中的例子啊。

比如说我开一个会，然后我这个会呢大概是啊一个小时，我和我的engineers在一起讨论我们下一个月要做什么啊，主要focus在什么领域。那大源模型呢有聆听我们这一个小时的会议。然后他呢写出个会议的章程。

但是呢。但是现在的大语言模型只到这一步，包括微软，它的呃teams，他现在只能写到会议。但是呢真正有意义的事情是我塞给我每一个每一个队员，我每一个engineer一个canendder。

那我两个星期之后呢，要和他们在一起重新me，然后去看一下有没有完成这些任务。然后赛给他们新的任务。甚至大语言模型在有朝一日可以代替我的engineer去完成这些任务。这就是大语言模型。

对今后今后的一个生活的一个改变。所以他更是一个平台，一个生态系统，而不仅仅是一个文本的输出。嗯。大家有什么问题吗？好，那再次感谢呃印涵女士，然后给大家带来的呃这个报告啊。

其实就是RLHF应该说是呃opI。然后这个chGPT引入的一个非常重要的去改善他的这个呃包括这个follow我们人类的伦理啊等等的这么一个技术。那么印涵女士的这个报告呢，其实可以让大家看到啊。

他能够在行业的这个应用中，然后其实也能够非常好的去把这个用户的一些反馈的信息能够考虑进来。那其实是具有非常好的这个inside。那我们接下来应该还有几分钟的时间。那我们接下来要不啊看现场。

大家对这个报告有什么问题，然后我们可以进行一个交流啊，那个呃请我们工作人员啊这边。😊。

对。呃，我我认为呃，现在NLP的底层的技术还没有突破。呃，我觉得就是东方文明的呃最底层的应该是基于呃语义类的。而西方文明的底层应该是基于一种神学。所以我觉得东方文明的底层。

如果他能够真正做出来的最终的NLP的。呃，就是语言类的这种产品，它应该能够更好的呃获取我们人类心底的那种答案。呃，所以你的问题是什么？还是你是是一个简单的comments啊。

这个这个是我一个是我的个人看法。然后我是觉得呃这个如果NOP的底层技术出现以后的话，我觉得。😊，呃，大模型一定是专用的。嗯，好，那谢谢你的反馈哈，那另外一个。呃，一涵你好，我有一个技术上的一个问题啊。

就是那reinment learning by human feedback这边这边hello你好你好，讲的非常精彩。

就是我想说的是 reinforceinment learning by human feedback是 fine的一种op？

然但是其他的比说啊比通过这种参数微调就是我们在商业场景里面想要这个的 performance那就是我什么时候选择用 human feedback么时候选择用其他的种 option就有什么建议？

pro是它不会改变你的 model你y model不会被改变。但是 reinforcement learning会更新一个这个会取代原有的然进行改变。

且像我们产生的例子啊其实客户不会去try不同的pro尤其对企业用户客户一般不会去 try一个不同的pro。😊，prom是一个fix的。啊。

所以说呃更新啊用reinforment learning更新PPO用PPO policy，然后去更新这个model的位是一个一劳永逸的方法。哎，那个我这个稍微想要那个交流一下。

就是呃刚才这个问题我觉得挺有意思的。就是呃在我来看，就是RLHF也好，还是SFT也好，其实它主要是一种啊一种任务。

就是相当于他希望把某一个目的来达到而而这pri efficient learning它其实更多的是一种技术。

是不是就是LHF其实也可以把它学到这个pri efficient的这个ning的这个啊这这么一个小的参数里面是可以的吗？有这个可能性。OK好啊，我就稍微澄清一下这个问题。好，那我们应该还有还可以嗯。

那那个前排嗯。哎，哎你好，我有个问题啊，就是刚刚我们在您举的那个例子当中，呃，就是关于那个客服他可能选择呃那个回复作为更好的嘛。就您认为这个是一个更好的一个天然的个例子。

然后我的问题其实说就是假如我们现在已经有一个SFT的这个model。然后呃选就是利用这种天然的数据去进行这个强化学习这个过程呃，就是强化学习得到的这个模型，他对于相比于这个SFT这个模型。

它的提升有多大。以及第二个问题就是说呃其实可以呃直接取这个呃就是呃客服直接发送的这个文本去进行SFT嘛。然后我理解可能如果要再去让用那个强化学习去提升呃，最终我们大模型的效果的话。

可能是不是这个过程中强化学习所需要的这个数据可能还需要再次的二次的人工的标注去提升一下。呃，首先这个问题很好。然后这个问题我恰好也有答案。因为我们有特别的关注这一点呃。

re human feedback相当于是零门一角就是说SFT到达一个范围内，它其实它是上不去的。但是这个呢恰好能把这一把它提高一个很好一个很小的微调，却能把它完全更好的满足客户的需求。那这是一点。

然后呢既然你已经提到我们这个产品中的应用。那我们回到我们产品中的啊产品当中，其实人呢是一个很多变性的，就是说他刚开始有看到这个SFT的一个output。那其实他的思想是在改变的。就比如说你想说一句话。

但是呢你看到大屏幕上打出一句话，那你的思想其实比你刚开始想说这句话时候是有所微调的也有所改变的。所以说在这种情况下，当当啊我们的这个SFT有输出的时候，人看到这句话时候，他会人和机器会共存的。

所以说这样的话，人出来的结果反而其实是更有效的能帮助reinforment呃with human feedback修更人一个更好的model。嗯嗯，谢谢谢谢。然后这个除此之外。

还有另一个就是您刚刚提的这个过程中，呃，其实就是包括您刚刚讲的那个过程，就说大模型可能不太会理解。就是他说降价了。

但是其实他可能背后的意思可能想想退款或者是补一些差价这种类似的东西就是其实我在想是不是说历史的一些过程中，就是历史天然的这个客服跟用户的对话过程中，因为他们肯定也存在这种补差价这种行为。

以可能是是否SFT这个阶段就已经足够，或者说换一个换种换种方式来，就是这个强化学习提升的那个点，就是您刚刚说那个提升非常微小那个点它究竟是指在哪一个点或者说他是更容易被客服选择？

还是还是什么样首先我们depy modelel就是一个已经是SF的mod，不是一个原始的model就是呃你客户看到的这个推荐这个in model包括你说的已经是一个SFT的model它是出在过去一年的。

😊，客服的信息上。所所以所以我的理解就是其实根据用户的反馈，你到底是学到SFT还是学用HF其实取决你的这个反馈的这个形式是吗？对我做一个体一个小小的就是说在之前。

我们有一年的后我们已经了个 model那我们把这个S model到这个I实性的I产品当中。然后进行进行对进行进行监管实收集客户到底是怎么样的然后个月之后呢。

我们了一个新的 model去取代之前的个后也就是说这三个月的时间其实就是收集 human model实就已经是不是 model那抱歉由那个时间关系这个这个环节就先到这。后面。还会有一个圆桌的讨论的环节。

咱们可以到那个地方再跟我们的啊这个特邀讲者再做交流。那我们再次以掌声，然后欢迎啊这个感谢啊英涵女士啊。😊，好，那我们就接下来进入到下一个报告。那么呃特邀讲者是来自于中科院自动化所的研究员刘静啊老师。

那么呃呃刘静老师，我其他的背景的信息就不多做介绍。那么他啊是我们国内哈这个多模态大模型，这个叫子动泰出的主要作者。那么大家也应该知道哈，就是在国内啊。

我理解子动泰出应该是最早的啊这个跨三模态的这么一个啊这么一个大模型哈，那么也有非常深远的这个影响力。那么接下来我们就有请刘静老师来给我们带来多模态的啊相关的介绍。大家欢迎。😊，啊，非常非常感谢刘老师。

还有支援的邀请，让我们站在这里给大家分享。我们在多模胎啊多多模胎与训练模型相关的一些嗯我们做的一些一点点的工作，以及我嗯我们这个组团队对这个方向的一些认识和一些思考。😊，我。我现在开始。

好行，我今天报告其实主要想带大家去看，因为多模胎育训练现在越来越越被大家关注。所以我今天报告主要分为以下三方面来展开。首先来介绍一下，就是多模胎，就是我们为什么要去关注多膜胎育训练。

然后讲讲一下这个多模胎育训练当前大家都是怎么做的。也就是说从其实这个方向呃并没有太久的这样基本上在019年底开始，到现在其实也就不过有3年多的研究时间啊，就整个学界都是这样的一个研究。

就这样一个三年多的这样研究历程。所以我给大家来带着回顾一下。然后接下来就是说会讲一下未来怎么做。啊。😊，那首先一个大背景，就是说我们知道在过去的十多年，其实以深度学习为核心的这样的一个人工智能技术。

已经渗透已经渗透到了我们各行各业啊，我们可以看到，无论是人脸啊、车辆识别，确实已经服务到我们的大众生活中但是其实也让我们越看越来越看到，其实AI的落地应用遇到了它的一个应用瓶颈啊。

可以表现在说传统的AI技术落地，都需要大量的人工标注数据，然后需要针对特定的场景进行定制化的开发啊，那在其实大模型就是在这样的一个背景下，然后被提出来的。

那么大模型其实被我被被我们认为是最有望突破上面说的这种应用瓶颈的一个技术。那么大模型其实它开启了我们所谓说大数据啊大模型的这种新范式。然后让我们可以从这种大规模的无监督数据中去挖掘信息来进行模型的学习。

那么简单来看，其实我觉得大模型技术跟传统的，或者说跟过去十多年的AI技术相比，我觉得主要有三点不同啊，首先就是从原有的这种基于。😊，全监督的这样的一个有限基于这种有限人工标注样本的全监督学习。

转变为这种基于大规模无标注训练样本的自监督学习。因为我可以去做这种不需要依赖于人工标注。因此我就有大量的数据可以用于模型的学习。因此我就可以学习更大规模具有更大参数的这样的一个模型。

那因此我们的模型规模也从专用的小模型走向了这样一个具有通用和泛化能力的大模型的研发。那么在接下来就ch出现，就从去年底出现之后，让我们更多的看到了大模型从基本的这样的一个数据驱动的范式。

又进一步去走向了这种人机交互的学习。去使得大模型的这样的一个能力，更好的去跟人类的意图对齐，成为一个以人类与人类意图对齐的这样的一个基础性模型。那也确实在这样过去的这样的335年中，其确实我们可以看到。

无论是学界还是企业界都有非常非常多人涌入到这样一个大模型的研发赛道。基本的方式就是让我们看到，就大家通过不断的去堆高数去增大数据的规模，不断去增大模型的参数规模。

然后也让我们见证到了在这样的一个语言语音视觉啊这样一个通用领域以及像无人车呀、生物医药等等这样的专用领域，都带来了这样性能的非常显著的提升啊。

也也当然也出现了像GP这样非常非常引人关注的这样一些大模型的应用。😊，所以我觉得觉真的是将大模型技术引入到了大众的这样的眼中，让我们全民都在关注大模型。

那我们也用下面用两页PP来简单的介绍一下是什么实际本是一个基于这一个大语言模型，后通过这种人类反馈学习然后得到了这样一个对话生成大模型。但他已经不是简单的像小兵啊样个简单闲聊机器人。

而他是让我们感受到可以用自然语言作为AI交互的这样的一个新的语言处理平台。以我觉得可能这就更强的这样一个时代的意义。

那他也带给我们非常强的这样一个交互体验现在有非常通用的意图理解他聊天的过程中你会发现他特别懂你我问什么他都知道还有强的这种连对话能力度也在不断的增长2直到1。😊，增强。

就提升了大大提升了它连续对话的能力啊，以智能交互修正能力，还有较强的逻辑推理能力等等。这样都让我们见证到了说chGPT很强，它具有类人的智能。

也被我们认为说chGPT可能是未来通已经开启了通用唉通用人工智能的这样一个大门，也因此才得到了大家对他如此的关注。那我们来看拆GPT其实它它并不是一个简单的技术的创新。

它更多的是一个众多技术和成果及大成者的。更多我们可以认为它是一个产品级的创新啊，它的核心实际上就是大模型技术，或者说自监督学习技术和人类反馈强化学习技术的一个融合。

让我们实现了这种AI能力人类的这样个意图对齐的这样一个展示。那我们来看到我们今天主题就其实从公公司成立之初。

他们就是要走向这种通用通用I那么其在这条路上终它的终点其实向了这个GPT思维代表了多模对话大模型。那因此就回到了我今天的报告的主题。就我们觉得其实大模型从单模态迈向多模将是一种必然。

了说我觉得可能现在业内越来越形成这样的一种共识。那我们是怎么来分析这个就我们所在开发动出的时，我们一开始的定位就是我们要去做图文音这样的多模的大模型。那其实我们的考虑有两点，一方面就是我们的数据。😊。

多模台数据是无处不在的。我们知道我们无论我们我们手机上，我们的电脑上，其实我们大量的信息，不过每天浏览的网页都是这样的，大量的都是一种多模台信息存在的这样一种形式。

那再一块就是说我们知道拆GPT它实际上是个语言大模型。那实际上我们人类有文字记载的历史，其实只有5000多年的历史。但是我人类的历整个人出现人类历史，其实有300多万年前。

那也就是说在在5000多年之前的这样一个人类存在过程中，实际上人类没有文字，照样可以去交流，可以去表达。也就说我们人类其实更多的表达方式或更常用的表达方式，就是通过我们的就是通过我们的这种。😊。

通过我们的去看去听去想，然后通过一样的这样一种这种可不一定用文字记载，这种口语，用一种语言的这种方式去来表达出来的那因此我们觉得我们大模型去解决什么，我们就是要解决通用为I。

我们去希望实现类人的这样的一个认知能力。因此我觉得我们从这样点，我们认为大模型要从单模台走向多模要多多模台。要像人一样去听去看，去想啊，去看我们的周围的世界。证因这样。

所以我们其实一直在从从支从这个大模型开始入手之期，也是从1从19年底我们开始就着手于去做多模胎大模型。那接下来我会对这个多模态大模刚才说过嘛。

基本上从19年底这个就这个这个整个学界或企业才开始研究多模态大模型。所以我会接下来用企业PPT来回顾一下多模态大模型这个领域，大家都在大概是怎么做的。最开始又是怎么来研究这个问题的。

那么首先我们来看多模态与训练要解决什么问题。那它既然是一个大模型技术。那我觉得它首先要具备最基本的就大模型需要具有这种强大的监督学习，会有通用知识迁移能力。有时我们对大模型最基最最希望它具备的能力。

就是具备这样一个通用泛化这样的一个能力啊，那我觉得多模域训练也是同样需要的那么作为多模训它特有的东西，我觉得要更多的去关注多模态的融合表征以及模之间的这样的一种转化，或者说语关联。

而更好的去服务于多模态融合理解和跨模转换生成这样的一些下游任务。😊，那我们来看就是我们来分析说大家来怎么做这个领域的时候。首先我觉得我们来看一下整个预训练模型到底它有哪些核心的这样的一些模块。

那我们知道就做预训练的人，做大模型都知道，其实他有很核心的两个阶段，对？个是预训练阶段一个是模型微调阶段。那么在预训练阶段，其实我们最希望模型去学习的。

就是要去针对这样的大规模的无标注样本通过设计合理的监督学习算法，然后来实现使模型具备这种与任务无关的这种通用知识，就是我预训练模型的目标。那因此在预训练模型里面。

其实我们最需要关注的就是我们的训练数据是什么样子的我们的模型架构是什么样子那现在模型架构所有大模型基本上都是trans作为一个积木块，然后堆起的一个大楼对吧？

那么再一块就是学习机制是怎样的有了数据有了模型们用什么样学习机制。那么再一个就是有有了这样的预训练模型。那么接下来怎么更好的服务下游应用。

这就会设及到模型的这种下游下下游就我们也叫模型微调以及下游任务适配等等这样。😊，方面的研究。接下来我也会针对这样的四个模块来展开对多模台预训练方面的一个一个回顾。那首先讲一下多模肽与训练数据集。

这个可能和文本不一样的，就是我们知道文本所有虽然文本质量也没有说想象的那么理想，但是其实相对多模态数据来说，它其实要干净的很多了。因为毕竟所有的文本语料都是人来编辑的。

是人文字本来就是人类来用记用来记录知识的这样的一个一个符号。而图文，而多模态其实就不一样了。多模态我们的获取，就是我他需要现在的获取图径基本上都互联网上去爬取，对吧？比如说图文数据。

那我爬取的方式就是要去网页上爬取图片以及图片的相关文本信息作为它的文字描述啊，这样一个过程。那其实我们知道在这个爬取的过程中，其实图文之间的关联是非常弱了。它噪音也是非常大的。😊。

这也是我们在多模参与训练里面，其实大家不得不考虑的一个问题。那么我除了去做图文的数据，我还可以做这种视频和文本的数据，以及说做音频文本的数据，就是任意任意任意两种模态或任一种模台的数据。

其实都可以服务于我多模参与训练模型的训练。嗯，那么这边实际上这里给出了就是我们现在所有能开源拿得到的这样的一个多模胎与训练数据集。那基本上上上面这一行的话就是图像的啊，上面这行就是图像图文数据。

下面这行就是视频文本数据。现在业内基本上我觉得作为学界其实这样的一个数据就完全是够用的那作为企业界的话，基本上也是用这些数据打底。

然后再加上自己企业的自有数据来去做对应的研发的但我觉得这个其实基本上已经可以就现在能拿到的多模态数据集，其实已经到了这样一个几十亿的规模，数据量是非常大的。但这个数据的噪音也是非常大的。

所以怎么能把这么大数据，这么大规模并且是弱关联的数据能用好，可能也是多模胎训练这个领域非常需要值得去关注的一个。😊，那么再一块就是我们刚才说transform模型，对吧？

我觉得现在所有的大模型技术其实都是在用transformer啊。那transformer其实从它2017年提出来到现在，其实大家一直在用它的最基本的架构。

因为我们可以看到transformer这个基本架构什么上有2块最核心的东西，一个就是transform部分，一个就是code部分对吧？那现在所有的现在所有的这个在多模态领域。

其实也可以看到大家无大家搭出来的模型架构，无非也就是说要么是基于它的编码器，要么基于解码器，以及编解码结构相融合的这样的一种架构去来设计我的多模态与训练大模型的一个基础模型。😊，那我们知道就这两大类。

一类，我们说是这种编编码器啊抵code呃这种encode这种架构。那么其实我我觉得在最早学职业其实在做多模态与训练的时候，基本上都是在关注incode。

也说因是多模态最初的任务更多的是在做一些分析理解任务。而基于这种t为主的这样的一个架构可能更适合来做理解任务。

所以早期的一些工作都是基于t的那当然可能我们觉得未来在看可能大家更多的会采用这样的一个生成式模型，或者说是采用inco加decode的这种架构起来更好的去实现在对多模态任务。

多模态特征理解的基础上在进一步进行生成来去做多多任务的这样的一个泛化能力啊。😊，那我们来简单来回顾一下。

就说在所其实这几天工作这基本上都代表了就是在多模台与训练这个领域最呃最开始的几个这样的工作可以看到他发表年份都在2020年，但出来基本上都在2019年出来的工作。那么这几个工作其实。😊。

其实看似其实非常简单，它基本上就是套用了bt的架构，然后把brt是一个纯文本的模型，然后相当于把它输入到不同，用用把各个模台也去去做不同的toking化，然后来进行了这样模型的输入。那么简单来看。

采用编码器的结构的话，又分为两大类啊，一类我们叫单流模型，叫单塔模型，或者是双塔模型，叫这种双流模。那么c模型就是我们最常见的叫双塔模型。那么其实这两类模型，我觉得它各有它的优势啊，尤其在多模台。

因为其实我们做多模台。我们刚才说过，我们更重要的就是要解决模台之间的关联。那我们去设计无论是设计单流还是双流实都是希望去更好的建模模台之间的这种关联。

那么单流网络实际上以看到它在它在网络的最底它相当于是图文图文信息实际上一起ken化之后输入到同一个trans除了同一个上去的。那么也就说它可以通过级别的这种不同模台的关联。那因此在建立模台关联之的话。

它的力度将会更加精细。而可以看到模型实际上它是个它只是在最通过这一个对比学习的损失。然后实现了不同模的关联。那么也就说它的关联力度上来讲的话，单塔模型肯定是要粗一些。

那它的优势就在于说它可以去离线的对文本和对应的或对应图像去做离线的编码。那么可能在一些检索任务上，者大家纯粹用它。😊，视觉编码上可能它就有更大的优势啊。

所以大家可以在不针对不同的应用去选择不同的这样的一个结构。啊，那再一类就是这种der的结构啊，那包括咱们最早支源这边做的实上就是采用了这样一个deder的方式来实现了图像以文生图这样的任务啊。

早期其实做以文生图都是基于这样的一个der的架构。那么现可能更多是用扩散模型那无论像也也好，其实它基本上都是就是采用了当时基本上都是基于GPT的这样一个架构。

然后相当于把然后把图像进行了这样的一个离散量化编码，然后通对应成些码字，然后相当和文字一样去输入到这个生成式模型，然后再去生成对应的码字。

然后从码字再回重构回原来的图像空间实现了这样的一个图像的这样一个生成方式。😊，刚才有了编码，有了解码，很容易想到，就是我可以去做incoder加deder。

说采用类似于像这样的一个像像transformer最基础的这样一种架构的方式。那么它的decodeder加入主要是因为我现在图像很多就大家知道就我很多任务其实最终都可以归结成是一个用文本来表述的任务。

就是我无论是caption也，QA也好，实际上我输入图像我最终都可以用文本来表达。那么其实它一般都会接一个文本的der因为所以大家会采用这加的架构。

那这种架构其实又分为两大类一类就transer样就可以理解成是一个和串行的结构，就是把co的输出通过一个交叉注意力，然后接到deder上。那么再一类方式可以理解成是der和是似于是并行的一个结构。

就可以共享同一个trans通过多任务的学习，实现了这样一个der这样一个同时编码能力。😊，那么再一块就是刚才前面我们讲了数据，然后讲的模型。

那那我觉得可能最那另外一个重要的环节就是怎么来去优化这样的一个模型。那我们就需要去设计合理的自监督学习的这样的一个算法去来更好的去建模所谓的跨模台的这样的一种关联。

那么现在基本上呃我觉得就是呃业内能看能能想象到的这样的一个或者大家用到的这种自监督学习方式，实际上应该基本上就是我这里面归出来的这样几大类啊，一类就是通过研码学习。像Bt一样的这种研码方式，对吧？

我可以去做模首先是模台内部的像Bt一样，就是我可以去研码出。😊，在任意一种模台内部去做自己模台内部的这样的一个掩码，然后去构建这种模台的这样的一种上下文特征的表征。那么再一种就是做模台间的掩码。

就说我可以通过maskm文本然后通过视频通过它的视觉信息来去把它的文本去做一测，这样就通过这样的一种掩码学习去建立不同模台之间的关联。那么再一类我们叫模台间的匹配学习，这个也比较比较容易理解。

就我们说自监督学习其实我更认为它是一种有监督，但它的监督信息不是来源于人工标注，而是来源于我从我的数据中去挖掘潜在的这样的监督信息来进行学习。那么匹配学习其实一个最典型。

它其实比如说我既然我不知道什么是正样本副样本，那其实我可以自己去找自己的正样本，比如图像我可以做各种变化之后啊，我当前图像做各种变化，还是那它仍然做我的正样本。那其他样本作为副样本？

这是我们的模台视觉内部的这样的一种匹配学习，那如果模台间的，那其实也比较好理解。比如说我有一个图文匹配对那任意。😊，不匹配的那就是它的副样本，然后来进行对应的学习。那么匹配学习又分为两大类。

一类就是我通过正负样本，按照通过二分类的方式来实现。那么再一类呢，就是通过这种对比学习的方式来实现这种模台间的匹配啊。😊，那么有了啊那接下来前面就通过大规模的数据。

然后通过基于这种transform架构的这种基础模型，再通过这样的一个呃自监督学习，使这样的一个模型具备了具备了非常好的这种通用性以及模台之间这种关联能力。那么接下来其实我们大模型最终要能服务于应用。

其实我们更重要的环节就是要去做模型的适配与微调啊那这个环节其实我觉得研究又分为几方面，一个就是要怎么合理的让让模型去迁移或者适配我对标的下游任务。那么这里面的研究方式。

我觉得又分为几个阶段从最早期的大家去基于这样的一个加也就说我通过我下游任务的这样的一个全监督的少量样本的这种监督学习，然后来实现这样的一个全参数的微调。那么随着模型规模越来越大，对吧？比百亿千亿万亿。

那我其实在少量的这样的下游任务数据其实已经很难全参数去微调这样的模型。那因此业内大家就想怎么能够去更高效更低代价的去微调这样的模型。变为非常重要的一个方向。那因此业内又不断的去提出，包括pro啊。

包括这种适配器的方法，以及现在这种lava的方法，其实都都希望去实现这种低代价的这样的一种增量式的微调。希望模型在微调的过程中，既不要忘记它大模型该具备的能力，同时又能够很好的去适配下游任务。

然后去实现这种增量的学习。那么再一块，其实我觉得多模胎啊在多模胎这个下游任务多模胎这个任务里面，其实它的下游任务其实可想象的空间也是非常大的。因为其实我们除了图文。

其实我们还可以不断的去范化我们的模台形式。那么实际上这种不同模态的组合，就会组合成不同的这种下游任务。那因此我们可以去想象这个怎么去让我们有了这样一个多模胎的基础模型之后。

我们怎么去更好的去想象出更好的可能的这种下游任务，使得我的模型更好的去对它服务。那么简单来理解，其实所有的下游任务都是生成类和理解类两大类，对吧？

那么生成类实际上又包括这种文本的生成语音的生成视觉的生成等等。那么理解类任务主要是说我们相当于是语义的这种理解，怎么去做问答。

怎么去做推理那其实我们可以真围绕这样的生成和理解两大类去来设计我们合理的这样的一些下游任务，使得我大模型能更好的去赋能于不同的应用。😊，那么在呃在这个研究过程中，除了像面上面在大家在几个基本环节里面。

大家去做各种各样的创新的算法。那我觉得其实要那既然是大模型，其实我觉得在这个里面大家其实怎么去把一个模型堆大做强，那可能是大家一直在努力方向。这里其实列出了几个业内典型的这样的一个大模型啊。

那他们其实基本上。😊，都是通过几个方向去来做大模型，怎么去把模型做大。你说怎么把参数量堆大，对吧？那其实大家无非的努力方向，一个就是用更强大的这样的一个语言模型啊。

比如现在可能未来可能让我们能看到的就是以大语言模型为基准的为核心的这样的一个多模态模型，可能会成为一个非常重要的一个一种研究范式啊。那再一个就是怎么去更大的这视觉模型或更大的音频模型。

就是更大的单模态模型怎么去做大。那其至少因为我觉得在文本里面可能不存在这个语音鸿沟的问题。但是在视觉和这个音频里面，其实语音鸿沟一直是以来一直几十年大家都在解决的一个问题。到现在也没有把它解决好。

因此我就说这种单模态就像视觉视觉这种音频其实是需要强大的这样的一个单模态的去来帮助他去跨越鸿沟。所以怎么去建立这样一个更好的这种单模态这种编码其实也是非常重要的啊，那再一个就是说用更多的数据，对吧？

其实现可能大家我去。😊，呃，大厂可能更多的去嗯怎么来比拼数据也是很重要的啊，一方面数据规模要大。另外一方面数据的质量也要高啊。那再一个就是像那更多模台形式的数据啊，除了图文音。

其实我们可以泛化到说去做红外去做雷达，去做去做等等啊，去做去做听觉，去做触觉等等。就说我通过更多模台的信息，是不是可以带来整个能力的这样的一个涌现。这边右边其实我给出了这样一个图。

就是用一个多模台一个典型的下游任务，也要视觉问答任务。那这个任务的这个任务的设置是说我给定一幅图片，然后我给提用文本提一个问题，然后让你用文本去做作答。

那么因此这是大家来验证多模态与训练模型的一个基础能力。大家最常用的这样的一个最常用的这种下游任务。我们其实通过右边的这样一个曲线可以看到就是。😊，这个红色部分就是在预训练模型之前，大家的一些研究的性能。

其我本人其实也是从151415年那时候我们就在做为人甲langu的这样一些任务啊。就那个时候其实我们感觉这个方向已经做不动了。但是其实你可以看到蓝线部分就预序练模型出来之后。

大家那时候其实只需要把问题就是问题部分就因是文本输入把问题部分替代成是我用t去替代一下，我都会发现性能就会做一个非常强的提升。再通过去把问题和图像去做简单的这样的一个多模态的这样一个关联建模。

发现性能会得到进一步的提升。也如说蓝线部分基本上是基于t架构的一些相对规模比较小的这样一些多模预训练模型的方法来可以看到在VQ这个任务的性能提升那再进一步去到绿色的这样一个曲线。

这基本上都是大模型通过对更大的用更多的数据然去见证说VQ能力的提升以看到它经现可以很好了。但不管怎样这条线。😊，说其实在出来之，包括我自己其实也认为多训练这个领域想很难。

就是因为感觉就像刚才说的就这个领域的数据很这个数据很据互联网10%的据保留不。我保留下1保它质量特。数据任务一直得在这个领域里可能想微调拼性很难。所大家基本上在这条线上的发展基本上都是都是拿微调任务的。

但到那个红心出来之让我们看到把语言模型非常强。核心再重新解务，它的就相当超过了所有的这个蓝线的区域。因此我觉得可能对未来的这个多领域就提出了一个挑。大家再训练，我相信都应该是比。😊。

因为我有了这样的一个，就可以站在这个非常强大的语言模型的肩膀上去来做这个事情。所以我觉得未来的能力将会变得更强，泛化性也会变得更强。😊，啊，接下来我会用几页PPT来介绍一下我们自己的工作啊。

这个其实我觉得业内更多的做多模态的模型，基本基本上都在做图文这样的一个都在做图文多模态模型。那我们所其实从从2020年启动这个项目开始，我们就一直瞄准要做图文音。因为我们人其实我们不光有眼睛。

我们还有耳朵，对吧？我们要需要去听要去看，我们才能去我们一个健全的人的对世界的认知和一个这种有残缺的人的离职肯定是不一样的。所以我们觉得要去构建这种图文音的大模型。

那么其实做这个领域其实我觉得就是当然无论我们在数据上和在模型上都做了非常多的工作。因为毕竟图文图文就很难了，图文音关联的数据局可能收集起来，代价就会更高啊。

所以我们其实也是我们可能近期会发布一个这种千万级规模的图文音多模态数据集。而且我们的音不简单的是现在大家业内理解的spech，我们还会把声音，就整个我们的世界的声音都会收集进来啊。

spech去来去做这样的更好的理解。😊，然后我们的模型就是我们有了这样的一个在图文音这样的一个大模型。三模台大模型的一种加持下，我们其实可以看到我们在这种传统的这种量任意两模台的任务上。

也去得到了更好的性能。无论是在图文啊文音啊或者是视频理解任务上，我们通过去加持这样的图文音三模台的关联建模，我们的性能都可以刷到当前，就在当现在已经在20多个这样的下游任务上都已经刷到了so它的性能。

😊，那我们其实这个工作我们为其依依托我们大模型也拿到了很多竞赛的奖，以及国际的这种奖项啊。那另外其实我们觉得就刚才我刚才说，我觉得未来的大模型肯定是要以语言大模型为核心。

然后来实现多模态的融合和多模态的融合感知与多任务的统一。我们也其实也做了这样的一个工作，希望说能够去呃以语言为以语言为中心，然后将各种模态都对齐到语言上，然后更好的让大家用语言的方式来去接触。

来去感受到这种多模态AI的这样的一个能力啊。😊，你们也提供了一些功能，就是我们既可以来做这样的一些嗯围绕视频去做一些细力度的问答啊，就比如说可以去，我不单我不单可以去问视频，简单给一个标题。

我还可以对视频里面的内容去做更细力度的这样的一些一些111一些这样了解。比如说我可以问这视频里面。嗯。能播视频是吗？就这样吧，就是就就我们可以去问里面的声音是什么。

以及可以问里面的声音出现在具体的视频的什么位置，我还可以去围绕里面的声音或者是里面的这种人运动的主体，然后来做对应的提问。

那么同时我们可以用对话的方式去来做这样的一个视频或者图像的这种生成编辑我们还可以做一些非常有意思的工作。就比以一幅图片，给一个给一个声音然后我可以去围绕这个图片和声音。

然后去来做一些能力的这样去做一些问答。比如像这样场景，我给他一个两个小孩踢球的这样一个场景，同时给他一个欢呼和掌声，我会问他你可以去分析一下结合图片声音分析下场景的氛围是怎么样的。

那我还可以去给他一个这个一个这种图书馆的图片，就给他这样种场景，给他一个气笛鸣笛可以去问他这个声音会不会出现这种场景下，他都会基于这样语言模型的这样一个认知能力。

然后来对这种多模态信息去做更强的这样一个理解和分析。我们还可以去比。😊，角两个视频里面的共同点是什么啊，然后。就可以共同共同点，或者他的差异是什么？比如这哎这个是放不了视频是吧？

就是其实上我们这边右边的一个视频里面可能就是这下面是两个视频啊，就是右边的视频可能是一个一个车在快速的移动。然后左边左边呃呃左应该左左边是快速的移动。右边的实际上是个慢速移动。

其实他可以通过对这两个视频细力度理解，可以来做这种深度的这样的分析啊。😊，我们同时还可以写写故事，就是我们不单可以看图写话，我们还可以给你一幅图片，给你一个声音，同时给你一个视频啊。

给给这个最右边其实是个视频。那其实我可以让他去根对这样的一个多模台的这样的一个对不同模态的这样一个理解，然后去通过他的一个语言的这样的一个组织能力，然后来给大家去讲一段流畅的故事。

也就是说其实我们当有了不同模台的信息。通过构建了这种图文音的这样的一种深度深层次细腻度的关联之后，其实我可延伸出来的多模台应用其实非常丰富啊。😊。

那同时我们这个模型其实我们不单呃不单算法上数据上我们都做了非常多的工作。同时我们作为就是呃大模型的这样所为中科院嘛，中科院为背景这样的一个国家队。

其实我们也希望把我们的大模型能够做到这种全站的国产化部署。那我们现在目前已经可以在这个华为的生腾平台，以及像曙光这样的一些硬件平台上都去可以做到这个全链的这样的一个呃模型的训练，然后推理和部署。

那么同时我们的这个泰出大模型，也在很多领域得到了一些推广的应用。😊，最后讲一下，就是我说多模态预训练模型的几点思考吧。就是以后该怎么做。那首先我觉得按照我们刚才说的这个对吧？

我们知道大模就是大数据啊大模型虽然很简单粗暴，但是至少我觉得肯定还是一条有效的路，对吧？未来肯定就至少现在我们还没有看到镜头，就通过对数据堆模型，我们还是可以性能得到进一步的提升。

但我们想这条路肯定并不是适合所有的人来走，特别是我们作为学界来去做这个问题的时候，一味的去追大，肯定不是我们能不是不是我们的长处啊。所以我觉得我们怎么能去通过另外一个方向去把它做基因才做到性能更好。

那我觉得从数据上来讲的话，我们如果做不大，那我们就要把质量做高。就像刚才我们说的就是多模胎多模态的数据其实是非常脏的。就是我如果能够你如果有非常好的方法，就无论是通过这样的一种规自动规则的这样那种过滤。

还是说通过这种模型加数据混合去来去做数据的清洗。我觉得如何用一个高质量的数据，可能都是非常重要的啊。😊，那再一块就是我觉得其实如何引入知识去来过滤数据。特别是当我们人去在执行很多任务的时候。

其实我们我们带着不同的目标。其实我们的信息的这种过滤能力是信息的过滤方式是不一样的那所以我们其实怎么就把知识或者任务的这样的一些一些一些一些目标性的东西放入到里面，去帮我们过滤数据。

可能也是要值得去思考的。那再一块就是我们说模型结构，对吧？我们其实现在我们看到transformer已经做到了大一统，对吧？无论是在图文音，大家都觉得它是最好的那其实再往后往再往前推。

再往前推五年推几年，那可能大家觉得CN是视觉领域N就是最好的吧在语音领域可能MN是最好的那我觉得其实这个模型就大家其实现在也知道trans本身确实有它的问题。比如它的自主义机制计算的冗余性等等啊。

所以我觉得可能怎么去研究更新的这样的像transformer一样的这种基础架构高效模型可能也是非常就非常值得学界去不断的去探索的再一个就是我们要把模型做大，对吧？我们最终肯定要我们要去做到百亿千亿。

特别是做到千亿的时候，那我们就要涉及到说怎么去做模型并行。么高效做数据并行流水并行等等。这个可能都是值得去就整个大模型的这种分布式并行训练，可能也是非常值得去探讨的一个方向。😊。

那么再一块就是我觉得我们大模型我们说了嘛，最好做完了，最终是要服务于下游任务。那么怎么设计一个合理的大模型，能更好的兼容更多更强的这样的下游任务。

可能我们也可以在这个模型基础设计上也可以去考虑这个问题啊。那再一个就是说关联键模次监督学习。那其实就像刚才我说，就像我们做多模态与训练，我们做图文音，但我们也不是只用。

不是必须要用到图文音三模态关联的数据。我们只是说需要用到。但是其实你图文的文音的纯图像的纯文本的。我们的模台我整个大模型的训练其实都是有的。

也就是说实际上我的训练要能支持单模态部分模态以及全模态的混合训练。这样才能更好的去利用全网的数据来使你的大模型做的更好啊。😊，那再一块就是我说模型的下游任务应用和迁移能力，对吧？

怎么去做对应的模型的蒸馏推理加速，然后为特定场景提供可能。就我们落地应用不可能用一个就如果是特别是到终端上，不可能用一个大用一个这种百亿千亿的大模型，对吧？我可能顶多几百兆或者几十兆的模型。

那这个时候怎么把大模型的能力蒸给蒸给小模型，对吧？我们到底是用数据蒸馏还是模型蒸馏还是参数蒸馏等等。这个可能都要去做更多的设计。

总之我觉得可能更多的研究创新算力数据可能都会使多模台与训练做的更好更快更强。那再一块其实我简单讲一下，就是说拆GP时代是说我们可能要重新审视说AI到底要做什么。

其实我觉得简单来理解就三大类工作一类就是研究大模型一就利用大模型。那最后就是治理大模型。那我觉得研究和利用就不用多说了。其实大家都非常清楚，那其实治理大模型，我觉得这个话题其实虽然被提了很多次。

但我觉得其实在大模型时代治理大模型可能会变得更加重要，就是因为我们知道这样的一个大这样一个完全数据驱动的黑盒子，对吧？

我们怎么更好的更安全更可信的服务用下游应用我们必须要打开它不知道它的原理不知道它我对它的生成不可控，那其实我很难去安全可信放心的去用它。所以我觉得可能在大模型时代，我觉得治理大模型可能会得非常重要。

我怎么使我大模型的发展更加安全可信可控，可能是需要我们去思考的那最后一页PPT啊，就是我来讲一下，就说。😊，多模台大模型就后就后差的GP1多模台大模型我们要做什么。

那我觉得最基本的就是我们我们刚才说我们要对标AGI我们就是要去做大模型。那么更那未来发展必然就是要去做多模台大模型。我们就是要去实现人类的这样类人的这种智能。那人类的智能就是多模台协同的智能。

所以我觉得最根本的目标就是要对标AGI去实现这种高效协同的多模台智能啊，那再一块就说多模台大能它在做什么，就多模胎到底会比单模台多什么。我相信不同的模台。

其实它会有它既有它自己的这样的一个可能具有模台之间的共有的东西，也有模台之间所特有的东西。那其实我们更希望从多模台之间去学习更多的知识。我们希望通过不同模台之间实现他们的种知识迁移。

以及相互补全和相互验证，去来做到一个更通用更更鲁棒的这样的一个大模型啊，那最后再就是说我们大模型的目标嘛，就是要去建立通用安全可信的这种多模态大模型。那最后一个方面就是说。😊，我觉得大模型怎么用？

至少现在其实我们可以看到，就特别是这个出来之后，开源了这么多大模型。这种通过积木拼搭式的这样的一种大模型的应用已经特别特别多层出不穷。那么其实在哪些领域。

我还可以其实我们可能还有更多更多尤其在多模态领域，还有更多可尝试的这种排列组合的方式去来拼插出一些更有意思的这样的一些多模应用。那么其实我这里简单的总结了几方面的这样的应用啊。

其实我觉得可能未来更值得去关注，特别是可能作为我们学界觉得更值得去关注的话，就是这种多模态感知决策一体化的这样的一种多模态智能吧。因为我觉得其实现在大模型更多的更多的在解决感知问题。

也就是说相当于我可以给机器人其实已经可以给他长了脑子？我怎么把他的眼睛，他的耳朵把他的手他的他的脚怎么更好的把他的感官和他的执行的这样一个部件去更好的协同起来。

那我去做这样的一种多模感知认知或者决策一体化的这种大模型。我觉得可能是未来。😊，更值得大家去往前走的这样的一个方向。那么落地的应用就可以看到更新一代的这种机器人，对吧？

可能不光是一个类人的这样一个聊天对话平台，可能更多的是可能未来有可能一个一个机器人坐在我们身边，就能提供像人一样的这种各种服务，各种各种这种种解答啊，所以可确实我觉得大模型给我们带来很多想象。

我们可以看到很多很多，我们可以做很多很多事情啊。😊。

好的，谢谢大家嗯。😊。

好，感谢刘老师啊，这个报告信息量非常大。这个刘老师自带这个二倍速的这个加成的这个特效哈那个那我们应该还有10分钟时间，然后我们可以再做一个呃这个简单的交流。然后那个有提问的请举手。😊，嗯，那个第一排嗯。

谢谢刘老师的分享。然后有两个想两个关于多模态的一个挑战的问题吧，想问请教一下刘老师。那第一个问题是说，我们多模态的数据的标注这一块可能成本要比我们单模态的标标成本会更大一些。

那对于中小型企业想要做基于一个成熟的多模态大模型做自己的做自己的微调的时候，怎么去降低自己数据标注的一个成本有没有什么更好的一个办法。这是第一个问题。

那第二个问题的话是关于算力的那我们看我们GB4即使是openI他也并没有说在他的官方对公众开放它的那个读图是图的个能力。那重新的现有的信息来看的话，还是我们多模态的推理。

对于算力的要求是非常非常高的那未来像泰书这样的集合了三个模态的大模型，后续经营推理的时候，怎么去降低它的算力成本有没有这样的个后续的一个方向，谢谢刘老师。😊，好的，谢谢你的问题啊。

首先我来回答第一个问题，就说数据的问题。首先我觉得就是刚确实我觉得多图文音或者说图文等等这种多模态的这种数据它的呃质量。因为它更难确实难度收集更大但是我们怎么来去做到高质量。

我觉得现在完全靠人工标或者是说这肯定是不现实的所以我们更多要去想一些这种自动的方法。觉得现在大家我们现在常用的一种就是通过模型。比说图文数据质的就是我要有一个图以及对这个图像的一个描述。

那这样一个图文的匹配那实际上我的模型我在做的事情本身我就可以训练一个caption可以训练一个文本描述器。那实际上我就可以用我自己的模型对所有的数据做清洗。

然后就这去得到我的这样个类似不断的去我自的数据有一个更强的模型去来清洗我的数据。那再一块我以考虑的就是么用现这样强大的语言模型做文字的这样一个修正和润色，其实也是可以去考虑的一个方向。😊。

而且我觉得未来就是。😊，就是我们说语言模型，大家说2025年可能就已经枯竭了，可能就已经用完了。那实际上我觉得可能未来在大模型这个研究道路上。

我觉得可能怎么多怎么更好的用大模型或怎么更好的用模型来生成数据，也是非常值得去探讨的一个方向。就是我们怎么用模型去来生成图片用图片再去生成文本文本再怎么就来形成闭环。

就是可能我觉得未来可能百分之二三十的数据可能是来自于生成的，未必是要来自自己去收集的啊，而特别是当您对标下游应任务应用的时候，那我觉得怎么把大模型的能力。

其实我觉得更多大模型怎么去通过数据蒸馏去蒸馏出能够服务于您对标应用的这样小领域的这种数据，可能我觉得是非常值得去去去探讨的。就怎么用大模型帮就大模型有时候到说到下游任务上。

可能就你直接想把一个千亿万亿的参数想把蒸馏成是一个这种几百兆的这样参数其实不现实。但是我觉得确实你可以让大模型去帮你蒸馏一个很好的。😊，样的高精度的高质量的数据集。

然后用这个数据集相当于是把大模型的能力赋予了你。你可以在你还有你领域的小模型。但是我的数据会比你原来好，数据多质量高，那同样可以得到更好的性能。所以我觉得可能怎么去用大模型去来嗯帮我们蒸馏数据也好。

帮我们生成数据也好，可能也是值得去值得去探讨的啊。另外您说的第二个问题就是算力的问题。那其实我觉得我刚才我刚才也引出来说，我觉得可能未来。😊，未来多么太大模型，真的是要以语言大模型为为一个基础的基座。

然后来去呃来去构养。就是相当于语言大模型，就像人的一个认知大脑。我有了这样的一个通过通过这种不断的这种文字学习。其实我的我已经有了一个基础的认知能力。然后我再再赋予大模型。

也就是其实我的语言大模型很就是语言大模型的这样的一个基础能力，我要很好的保持。就说我其实。😊，我可能未来多模态与训练这一块，可能我百分之七八十的参数都来自于语言模型。而这块模型的参数。

实际上我可以在真造大多模态大模型这个领域上可以固化掉不学习。😊，就因为语言大模型现在确实已经发展的非常好了，就是让我们看到他能力已经蛮强的。那再一块就是其实正是为什么我要去做多模态。

我们去想到说我们通过这种多模态之间的这样的一个呃对知识的补全，这相互的验证。我们觉得它可能会大大降低我们对任意一种模态的这种呃数据的需求。就我通过这种多模态的这种融合验证。

可能我会降低我对其单一同样做同样一件任务，你只用图像数据和我用图文音数据去来做的时候，我可能会我的效率会更高啊，所以我当用更多模态的数据的时候，我可能会带来一些能力的涌现。

这也是这这也是要也是非常有意义的。😊，不知是不是满意。好，那个要不我们给后面的同志机会，最后面一排。嗯。嗯，听不清。testing testing，我想问一下老师，之前呃我看过一篇论文。

关于用模型去生成数据导致的模型探索，还有数据危害的问题。呃，对于这个问题的话呃，你们有没有什么其他见解去解决这个问题？当然这种生意成这种这种数据生成肯定是要呃你要定义场景，定义好你的规则。

并不是说这种这种自由的生成啊，就是肯定要定义好场景。你要就像我们说我们要用大语言模型，你一定要定义好你的pro是什么？你这个才能去更好的去服务它的生成结果才能更好的服务你应用。

就如果是说通用大模型的这个这个训练，我倒觉得可能用这种生成式生成式的东西，可能只只是文字可能更多的润色。你用这个但是我觉得这种到特别对标到下游应用的时候，我觉得生成，你要结合你的应用的需求。

然后去写合适的pro，然后去来做对应的生成。😊，好，那那个由于时间关系，我们最后一个问题，然后呃那个要不第一排第一排那边。不行。嗯。下午好，我是赵子金，从宾西法尼亚大学来的。

嗯I it O if I ask you this question in English。O。I was just wondering as we progress towards more advanced multimod generation and training。

whether the main advantage would come from increasing specialization and specification within certain modes or the systematic allocation of resources and dedication of resources towards development of increasingly advanced large language models。

啊，我我没有听得很清楚。嗯，就是呃抱歉，我中文真的说的不太好，用中文说，但是呃我试一试嗯，就是在我们这个嗯多模型的这个多多模态的这个模型的发展呃 journey里面呃，我们走向这个多模态的时候。

我们是应该呃在任一个某个模台里面嗯，ddicate更多的时间，把它更specialize做的更perfect，还是说。😊。

overall的这个大模型呃underlying foundational的这个LLM把它做的最好，而且其他的 application can come later。我觉得这个都很重要。

就是我觉得要想把多模台模型做好。就是我觉得未来的架构肯定就是刚才我说基础架可能就是加可能就是分别有不同模的有多模再去接一这种架构。

那其实每一个环节都会非常重要性能的提升所以我觉得其实做大模型不是简单的一两篇work堆出来的工作。它一定是大家就是在每一个环节论是数据还是模型还是说我最后的这样一些工程的部署。

可能最终才能一起造就出一个非常好性能性能好的大模型。那我觉得整个就说模型这个环节你论是文本还是语音还是视觉这个单一模的单一模编码好了好了，肯定对你最后的这贡献非常的。

但如果只是单一模建了你的多模之的关联建那就真多大模型。所以我觉得每一个环节可能都会非常重要。难说哪个环节不重要。我觉得大模型真的是一个。😊，就是这种集成公关的任这样的一个一个任务。

不是简单的说我们靠一个算法就能就能堆出一个工作的这样的一个东西。那如果说抱歉，在呃 additional一个小问题，就是说如果一个产业。

一个entterprise要develop他们在某个项目的上的能力。他们应该focus在一个specialize area，他们自己的doomain，还是说能把这个大模型push forward。

我觉得作为企业来说，你有明确的这种呃明确的应用场景。那我觉得肯定是应该想好怎么把现在的大模型怎么更好的赋能应用的场景。我觉得这个是很重要的。而且我觉得未来大模型做基础基做的可能不需要太多。

但是我觉得能锤化去发展的可以可根对不同的领域去做各种各样的垂化的发展。我觉得作为企业特别是有明确这种应用场景的，我觉我觉得还是要更多的去去定去去聚焦自己的场景。因为我觉得其实现在大模型你比如语言大模型。

包括一些基础基础的这样多模态，无论是生成，还是说我们做种多模态理解，其他基础能力都还可以了。但未来怎么针对说真正落地能赋能应用，更需要锤化的方式去怎么去把每一步你的数据怎么去做，对？

你的你的这个模型怎么去构建你的下任务是怎么来定义的。以及说现在大家我说未来可能不简单的是一个纯数据去动还去怎么去人类的反馈种人类的交互学习。可能这些环节都是对。😊。

你这个最终你的这个模型能不能产生价值是是更为重要的啊。好，多谢您。好，那呃再次感谢各位提问。那也再次感谢呃刘呃这个刘老师给大家带来的多么太的精彩报告。那大家嗯再次鼓掌啊，感谢。😊，好。

那我们接下来就进入到今天的最后一个特邀报告，是来自于google的呃研究科学家周燕琪女士。然后她呃要给我们讲的是skiing large language models from power law torsity。

那么呃周燕琪女士呢本身啊呃应该也不做多做介绍哈，它是我们应该所有的呃这个预训练语言模型啊，预训练模型里面啊，另外一个非常重要的呃这么一个呃这一个模型叫T five啊，她是这个T five的呃作者之一。

那么接下来我们就欢迎啊周女士给大家带来报告，大家欢迎。有。

啊，大家下午好嗯，我是周艳琪，来自google的de mind嗯，我是一名research scientist嗯，我在google嗯做了很多关于large language model的工作。

最开始的工作是关于做了一些这个input building，然后做了一些 fine的一些工作。然后在往后的一些lan model的rearch里面呢做的关于ity以及sing large language model的一些工作。

然后呢，和刚才那位同学有一个一样的问题啊，我的这个中文呃讲这个technical的东西非常差。所以呢这个talk我就还是用英文来讲，然后我可能尽量的这个语速放慢一点。

然后能方便大家能够更好的理解这个呃s里面的内容。然后如果大概大家那个有什么问题的话，我们可以线下接着交流。😊，Okay， let's get started。

I'm going to talk about larger language scaling， from power law to sparsity。

And then here's today's agenda。 We will have four separate sections。

The first section will be around more law and power law in deep learning。 and later。

I will talk about my research work at Google Bra ranging from T 5 unified text text transformer and several recent work on M O E architecture and more advanced M O E techniques we developed this year in IC M O paper。

And at first， more slow and power law。If， if people know deep learnings development。

we might get a sense that deep learning is actually thriving because of the development of hardware and modern accelerators。

Jrdan Moore actually postulated that the number of transistors on a fixed areas of a chip processor will be doubled every two year or every every one year。

one or two year。 and that actually fundamentally provides the stress and drive of developing large deep learning models and recent large language models。

However， more recently， we all know that we are hitting the end of scaling more slow。

That means the number of transistors we could pack on a fixed area of chip is pretty much fixed these days。

Therefore， we cannot get the free lunch we got from the past。

We cannot freely scale the deep learning models for free。 And of course。

we all know that the chip performance are not just bounded by the number of transistors on chip。

but also bound by the the memory bandwidth around the chip。 That's what we call memory wall。

And for other reasons。 so given the end of Moores law in in the past few years why I was still working at Baidu。

our colleague， Joel actually had a very important paper about deep learning empirically predictable the performance is predictable。

given the size of the model and given the total training data of the model。 So at that point。

it could be like very groundbreaking research work， but it was not very like wellknow at that point。

and a few years later， open AI had its its own very systematic paper around scaling law on large language models。

and they have like more systematic results based on scaling the computation resources。

scaling the data size and scaling the total number of parameters in the model。

and we could find uniformly， you could get this linear scaling curve by。

Finacially scaling all these parameters or each of the parameters。

That fundamentally provide our the incentives to all the major big tech companies to develop their big models。

and more recently， the larger language models。Yeah。And in this session。

I'm going to talk a little bit details about the T 5 work we had at Google。

And one of the greatest contribution teeth I had is to formulate each N L P task as a unified tax to tax problem。

So， for example， you could create a tax tax problem for translation task for sentimental analysis task for classification task and also for like a question answering task like what。

what we this days care most about。😊，And another significant contribution is the C4 data。

which was open source with the T 5 model together a few years ago。

and this data actually benefit the entire research community a lot。 and observe that many。

many follow up papers are based on top of T5 model architecture and the C4 data and more particularly C4 is a web crowd data。

we basically do like scraping from the Internet data and do some data filtering preprocessing to create clean data。

So more particularly we could remove the redundant sentences。

remove short lines remove the lines with bad phrases and by doing those。

we create a very clean data of around 700 50 gig of clean English data and a little portion of multilingual data is also released with the C4。

Or that's why actually， the translation results on T5 model is not so great because it contains very little multilingual data compared to the web crowd data set。

And in general， as we know， theres a transfer learning the concept in the title。

So transfer learning is very different from what we currently care most about which is in context few short one short learning in G3 G4。

So transfer learning means that you pretrain a large language model and using web crowd data set and using the knowledge from the world。

while you you create the generation capability of this model so that foundationally。

the model is very good at the word knowledge at the linguistic in general， However。

for all the downstream task， you need to do another round of a fine tuning to actually find tune the model with glue super glue translation。

etc。 to make the model really excel on the downstream task。And in Hai。

we particularly make all the parameters very simple so that people can reproduce easily。

And the objective in T P similar to Bt， we use a mask language modeling loss， which basically。

you given the input， you you， you randomly carve out sound of the tokens and you let the model predict the carved out tokens and the loss is just a cross entropy loss between the target and your generated tokens。

And this slide covers some basic concepts of encoder decoder based model。

which is what the Tfi propose and a language model and a prefix language model。

So basically in encode decoder model is a very general model。

encoder will encode embedding of your input a good representation while doing in the encodecoding stage。

all the tokens can be attending to all the other tokens。

So the attention mask is a full fully visible attention mask。

while in the decoder you start the generation like the translation or question answering you need to generate the target。

and doing the auto regressiongressive generation， there is a causal masking applied。 Therefore。

all the tokens can be only to the past tokens， not the future tokens。 similarly。

in the language model。 it doesn't have the encoder part。

That means all the tokens has like a causal masking。 Therefore the generation is。

It's causal auto regressive through the entire sequence， including the input and the target。

and prefix L M improves language model a little bit by providing the the the prefix part being fully visible。

That means you can do like full attention in the prefix part and do the causal attention in the generation part makes the model slightly more capable than than the the language model。

At in T5， we picked a bird style mass language modeling loss with a 15% corruption ratio。

That means you carve out 15% of the tokens from the entire sentence and let the model predict the corrupted tokens。

And a very interesting， actually phenomenon the Tfi observed is that for4 x compute。

how we should allocate the compute resources。 And according to the results is very interesting。

We noticed that you could allocate the 4 x resources to either your training data。

your training time， your batch size or the total number of parameters。

It doesn't really matter the model would like pretty much uniformly scale linearly in terms of log complexity during training。

And that finding is actually very important。 I think it's actually the foundation of the later chininilla paper where the chinilla paper develop some theory around the compute efficient model scaling。

I think that paper is actually a follow up work from the Tfi theory。

And T5 at that point was ranked number one， a bunch of leaderboards like glue silver glue。

except translation test。 like I mentioned the reason it doesn't have a much multilingual data。

That's why it's not good at translation。 but it ranked number one of the leader board at 11 billions of parameters。

赵。Since the inception of P5， we've been seeing this computation across all the big companies generating newer and newer version of a large language models。

So in the same year of T5 open AI built a much larger model called G3。

which use int decoder only model use in text few short learning。

So instead of doing this additional around fine tuning it cares more about the generalization capability of the model by doing purely next token prediction during training and doing evaluation is just use like in context a few short learning。

it generates a few examples of the task and the model follow the example and generates the answer for like a new question。

So basically that's how G3 works。 and G works really well。

and the word notice that the decoder only model works really well。

especially for the generalization。without fine tuning perspective， However， later two year later。

Google had a new model called Palm model with over 500 billions of parameters。

And that was considered the biggest model at that point。

It's super capable and super expensive to train。嗯， however。Even like one year later。

we don't really have like officially announced dance model above 500 billions of parameters， right。

If you check， if you check， chat GT， it's actually fewer than500 billions of parameters。

If you check G4， it's not even a dance model。So it comes to my next topic about efficiently scaling larger language models with mixture of expert。

Our first paper on sparsely gated large language models at Google， which has over 1。

2 trillionth of total parameters。 but with a slightly smaller number of activated parameters than G3。

So activated parameters means that we only dynamically switch on sub ratio of the sub portion of the to the neurons for each of the input。

that means your model is is actually sparse。And some more details about Gam。

It's a decoder owning model like G3。 It use in text of fuion learning the same as G 3 difference is that model architecture level。

it has a sparsity。 So it has sparsely activated FFM layer that makes the model super scalable and super efficient。

And like I mentioned， the total parameters is 1。2 trillionth of parameters with 97 billions of activated parameters。

If you check the results on the the table。The zero shop one shot fee shot compared to G 3 is way better。

even with a fewer number of activated parameters， which means fewer flops per token。

And if you check the cost on the top row， the training energy is reduced by over 60% compared to G3。

So looking into the details of a gl model， it's a sparsely activated model。

but we don't build an M O E for every layer。 We make the dance layer and M O E layer in like interleaved fashion on purpose。

because we want to， whenever we introduce more experts。

we wanna only sublinely increase the total number of parameters。

not linearly increase the number total number of parameters。

which might require too many slices of machines。嗯。And comparing the few short results with G3。

So at every single activated parameter size， gl outperform G GP T3 in natural language generation task and natural language understanding task pretty much uniformly。

And here is the decomposition of the results。 You can see that the the gap between gl and G3 is actually big。

And if you track the right most color， it's comparing the TPU years means how many TP U years we need to train a certain sized model and gl actually provides even bigger game compared to G3。

Yeah。Yeah。However， even with this more efficient gl model。

we still notice the token based M O E can be very limited。 for several reasons。

One of them is that it creates some loading imbal problem。

that's because the the token based routing have the token picking experts using the routing function。

However， that can create hot experts and code experts， especially in the beginning of training。

So that's a big problem。 Some experts will be underut。 Some experts will be overutized。

and the the latency can be increased even due to the hot experts。So to mitigate that。

we propose a new routing algorithm， we call it expert choice routing。 This is a paper in New 2022。

So instead of having the token picking experts， we have the expert with fixed buffer capacity picking token So the buffer capacity actually can be precomputed given the capacity factor of the model。

which is the sparsity of the model。 So the programmer can define beforehand the sparsity of the model and then precomp what is the buffer site and then use expert choice to route the token using expert choice routing and which creates perfect load balancing you don't have to add a auxiliary loss。

which might hurt the training using cost entrepreneur laws and also tokens can be received by a variable number of experts。

Which essentially creates hydrogengeneity in resource mapping。

Some important tokens can get more resources， while some less important tokens can get fewer parameters。

And this figure shows the， the gather stage of expert choice。

Basically a router select tokens send the tokens to each of the expert。

And after the gather function， we needed to still run the scatter function to gather the tokens to its original temporal order。

which is very critical for the following attention layer。Yeah。And comparing to gl， the spae。

the best sparse model at Google， the the model with expert choice routing is2 x more efficient in terms of a training convergence and in terms of a step time iss 20% faster than the gl baseline。

So basically， expert choice is faster because it removed actually removed the load imbalance issue entirely。

So all the experts are evenly balanced that actually reduce the critical path of the run time。

And comparing to glam and switch transformer， which use top two routing， top 2 ro top one routing。

Both are token based routing。 expert choice consistently outperform switch transformer and glam in various scales in the largest scale。

A B 6，4 E setting our model even outperform 11 B T 5 dance model in the super gluelu score。

And having the， the more advanced routing algorithm。

we think about how to improve the M O E method even more。

By creating an even novel M O E architecture。 So we call it brainform。

So the purpose is to create a model that is if as efficient as a human brain。

That is more like dynamically using dynamic conditional computation is spa and is highly specialized into different regions。

So we propose brainformer， which is essentially a non uniform model architecture。

rooted from the the fundamental low rank multi expert primitives and a brainformer demonstrate two x faster training and5 x faster step time compared to Glen。

So how do we derive the search space？ How can we decide what kind of operators to put in the search space？

So instead of combining purely combining all the recent work from the word like the xform different formss we actually started from like very fundamentals using two different basic compression methods。

One is a low rank and the other is multi expert。 So by low rank。

we could decompose a big matrix modification into two vertically stack one， smaller one。

which reduce the fls by half and multi expert means you could vertically horizontally split the matrix modificationplication operation and also split your input into two parts and route your two parts of input two different experts。

And also， by stacking those two methods together， we could create even higher compression ratio。

As demonstrated in the， in the right figure。And very interesting。

if you insert a mixture layer across the bottleneck part of the model。

the model starts looking very similar to transformer。 And actually。

if you use a attention layer in that bottleneck part， it becomes a multi expert transformer layer。

So that actually our the search space help us understand the transformer model architecture even more。

😊，And we decide to build a search space on top of those very fundamental primitives by varying the operator types of each of the layer and hyper parameters of each of the layer and routing algorithm capacity factors。

sparsity of the model， each layer。And create a search space out of this。 And during the search。

we first sample a block architecture from the search space and build a proxy model of size 100 million parameters and a total 32 experts And we train the proxy task。

Get the validation accuracy and create a reward road function。😊。

And we pick the top K models and scale models to different size，1， B，64 E and A B。

64 E and evaluate different models at a different scale。

And our search objective is a compute efficient search objective。

which is actually taking inspiration from the chininchilla paper。

We want to build something that is not just flwise very small or memory wise very small。

We want to build something that can run really， really fast on TPU。😊，Therefore。

our search objective is to minimize the validation loss of the architecture while meeting a inference time constraint compared to your baseline vanillana transformer。

and your search space is the previously mentioned blockwise architecture search space。And here。

comparing the results， brainformer is in the right figure。

8 B scale is more than two x faster in training convergence compared to gl architecture and five x more like faster in step time or inference time。

So this table shows more details around the training efficiency。 looking at the last row。

you can see with a fewer activated parameters and。

It gets a lower perplexity and a5 x faster than than the gl baseline。

And we also compare the downstream task performance using fine tuning and using in tax fu learning and a brainformer can beat both the primary 1 B dance model and the Glen 1 B6。

4E spae model on various NP task。Yeah。So after finding this model architecture。

we start thinking about how to effectively train the model。 As we know。

training large language model can be very expensive。

So there are actually a bunch of use case at Google。 We needed to improve。 First。

is we have a temporal data at Google。 So basically， we。

we collect new samples from the world in like a very constant fashion。 We get a new search data。

new foreign data， dialogue data， Wikipedia data， Github data。 The data is changing every day。

So how can we make the language model updated。And another question is。

we wanted to adapt the foundational model， let's say a pretrained G4 a upon model to some target downstream task domain。

So for example， we wanted the model to do really well on conversational task like chatbot or like the model doing really well on translation。

So therefore， we needed to create like a second round of a fine tunening of training using the mixture of a downstream task data set。

However， if you do this additional round of training， it's also very time consuming。

And it has a significant issue of forgetting。 So whenever you train a very different data distribution than the previous one。

you forget on the previous data distribution。So here explains the problem of forgetting。

So when you train on your original C 4 or G 4 data。 and later。

you wanted the model to do really well on medical images。

The model gets really well on medical images， but forgets what is previously learned。

So that's the issue of forgetting。So here we wanted to create a method that can make the model can efficiently incrementally learn the new training data while retaining the old knowledge。

So here is our proposed progressive lifelong learning on mixture of expert。😊，So basically。

for every new， drastically new data distribution created， you wan to add a bunch more experts。

which sublily creates more parameters in your model。

And you only to fine tune the newly introduced experts with the new data while frozen freezing majority of the old parameters。

And by adding a loss， you could make sure that the model actually deviates very little from its original data distribution。

So that's how this method work。 So basically， we create a three data distribution。

A its created using Wikipedia web search data。 that is very super helpful for question answering task in general。

and the second B dataset is a noneng data， which can be benefiting the translation task really And the C is a dialogue data。

which can benefit the conversational task really well。

And we add a lifelong like learning without forgetting laws to regular that the new the newly introduced model parameters would not change the prediction on the old data very much。

So this figure shows how it works exactly。 So we have originally have the gray part。

which is the old expert that is pre traineded on data distribution A。

So whenever you introduce a new data distribution， you add a bunch of experts。

And while freezing the old experts， you add a recognizing laws by generating two predictions。

one using the old experts and the other using the new the new new experts plus the old experts。

and you make sure the difference iss very small。😊，In the regulation laws。

And comparing to the baseline without learning without forgetting loss。

And we can see that our method retains the knowledge really well。

So when you have a very drastic change of data distribution from A to B。

the baseline actually got a deep drop on its performance on distribution A。 However。

our method retains the knowledge relatively well。And you compare the numbers on the task scores。

Surprisly， lifelong learning M O E actually is better than the the dance oracle。

D Oracle is a dance model counterpart with multitask learning。 So well。

multitask learning has a full access to all three data sets。😊，However， in this setting。

lifelong learning M O E， while having limited access to like a stream of data。

don't have access to the old data actually can outperform the dance oracle。

And this slide will summarize my today's talk。 So basically， we。

we know that we can no longer substantially sustain scaling dense large language models。

by simply doubling the parameters or doubling the tokens It's a veryeff， less sustainable way。

and we need a more sustainable way scaling large language models。

That's why we developed various forms of M E technology as Google Google。

And we we first we built a routing algorithm called expert choice。

And then we create a nonuni architecture。 We we call it brainform that is a5 x more faster than the gl baseline。

and then we investigated how to train the model efficiently in a very scalable fashion。

and in the lifelong learning M E paper。 We defined a method that we could sub nearly increase the number of parameters while。

Uing new training data and adding a regular loss so that the model would not forget on the previous trained data sets。

And that would summarize my today's talk。 Thank you very much。 Any question。

好，那个呃应该我们还有非常多的时间啊，那感谢呃这个呃给我们提供的这个机会。那我们来做一下，要不请请你来点一下。😊。

啊，这个同学嗯这个。Yeah。嗯，谢谢。刚刚您听到的那个spaparity，我觉得是非常好的一个事情。然后你刚刚也稍微透露了一句说GPT4，它并不是一个dance model，是真的吗？啊。

就是这个我我也不方便说这个信息源是哪里，但是就是多方信息源就是说明它是一个se的 model。好的，非常感谢。😊，啊，那个女同学。就是那就你那个第二排的女同学。Thanks， Yan Chi。

for sharing。 I have a question about the computing like the US and China， you know。

on large language model， because， you know， China has obstacles from the cheap side。

We don't get in ind a 100 and H 100。 I want to know whether you think like computing wise computing power wise。

whether China is in a disadvantaged position。 Thank you so much。

嗯。I， I might not fully get the question。 Can you， Can you repeat the question。I wonder， you know。

whether yeah， I want to ask about， you know， the computing power side because China is disadvantaged in the chip side。

like Chinese companies cannot get chips like in100 and H 100 this may be put。

you know the startups and Chinese companies in bad position when you know。

developing large language models， which the training is very expensive and require a lot of computing resources。

I want to know how how do you see this Yeah that is a very great questions。

So actually we're thinking about whether to start a company in China， right。

a very big concern for me is whether we could get enough computational resources from China。

as we know theres like a ban from NV from US government how how many chips we could export to China each year。

that might be a limitation restriction of how many。

GPUs we could get from in Nvidia。 So that's a big disadvantage for Chinese startup companies。

But actually， I think that provides us a more incentives to build more like chip companies to actually to be able to compete with companies like Nvidia A M D。

etca。 that would also requires a bunch a bit more collaboration and between the US and and China。

So we don't we cannot be very like a。Create such kind of a closeness culture anymore。

We needed to like exchange the knowledge， information more so that we could have a Chinese owned chip company that could eventually compete with Nvidia and build a very powerful accelerators。

So that's the fundamental thing we could address。 we should be addressing in the future。

At another maybe short pass my， my thinking is that maybe a short pass for the startup companies is to try to get some resources from the major cloud vendors like Amazon。

cloud， Google cloud， etc cea。 So recently， I know Google purchased the 26000 H 100。

So Google doesn't really just use TU。 It also provisions GPU as the option to the yeah， cloud users。

够吗？嗯呃，这个同学那个戴口罩的同学。Okay thanks for a great talk about scaling anity。

And and you have introduced the different architectures of Russian only models like encode only deco only and encode decoder。

And then you display the scales of these models。 And I noticed that only deco only model can scale up to like 100 billion scale。

but other models like the T 5 deco model developed by Google is is not scale up by scale up to 100 billion by Google themselves rather instead instead they they scale up a deco only model to hundreds of billion scale。

So we we we don't know why this case。 So can you show some insights about why only deco only model can scale up to the large scale。

Yeah Thank you。 Yeah， that's that's a very。😊，Good question。

So I think I guess the key point is not the encoded decoder model cannot scale。

So I still believe that encode decoder model can scale。 but as a matter of fact。

T use pretrain fine tuning based method， which might not be very suitable for the other players to adopt like for those companies who don't have many。

many TP G like Microsoft Google， they cannot do a fine tunening on like giant model of 500 billions of parameters。

So that fundamentally limits how far we could go with T。

So I guess that's why later we we we actually think really highly of G3 G4。

where there is no fine tuning stage required。 Well like any reasonable size the company could actually fine tune instruction fine tune their model using the deco only model。

OK哎 thank you。啊，也。啊啊，后面的听不到，要不还是麦克风嗯。嗯。呃，我刚来好，不知道您前面的那个呃讲述里面有没有回答这个问题。就是我想问一下，对于谷歌来讲的话。

未来我们在做多模态这块的话呢，我们的方向和路径哈。因为现在来讲的话，可能大家也呃不太清楚，GB4它的这个多模态的能力哈，到底是说我重新训练了一个一个大模型，还是说我就是在自然语言模型的这个基础上。

我用MOE的方式是吧？然后做一个协同，然后不知道您您这个是怎么看啊。😊，说句实话我也不知道如如果我们知道的话，应该很快就有一个可以这个的模型出来了，对吧？

就是我们也真的不知道这个 four它的这个ec recipe是什么。我们只是说多方的信息知道它就它是一个就不一定是 check但是我也不是十分的确定因为我们目前也有他在做一些一些一个工作。

就是说基于我们已的 check可以 check这工作也是有的但是我们体不楚的是一种方法一下我歌内这两条路是同步进行的？或者块人组还资源分块路线概个设计业不用。😊，啊，这这这这个可能就有点设计机密了。

但是我我觉得就是呃两个方向呃reseer都有都有在进行，就是都有去探索。我们有这样的paper，就是两个方向都有paper嗯，正在进行。好好，谢谢嗯。😊。

呃。要不你帮我点一个吧，我可能也没有，要不我们给后面的机会吧，最后一排的嗯。啊，好像又是你。Ha。😊，testing testing testing呃呃，我想问一下。

关于你刚才说的MOE那如果我有一个任务是在MOE的几模块里边没有的那对于这个任务，这是OOOD问题吗？它的表现相比于一些dance的的model来说，它有什么优势或者劣势吗？

对我觉得你说的是一个我们目前也正在handle的一个问题。很多同学他会 complainplain说我这个finning完这个ME好像比dance model还差，就是为什么呢？

因为多时候大家在ning候用到的这个数据集train的数据集非大。你可基比基于你想让他的这个ning更加到 human面比的这个 human reinforce数据集。

那么你这个数据集和你的training数据集相差甚远，对吧？你直接做一个ning然后在你一个巨大的模型的参数下面。

那其实是它的之所有都没有见过练数据那么是没有任ulate一个新的所呢你就需要一个新的不是就纯粹的去学怎么去。很有可能学出来的是一个 garbage的一个。

然后这个ext是一个更差的为什么我说ME会更差呢？因为ME它是一个呃 expert上面的ialization就每一个它不是一个是ize一个去。

所以呢你你你一 mapping可能个d modelpart为d model是一个的一个这是我对这个时理解。但但是我们这个这个lifelong learning就是很好的解决了这个问题。

好，那呃我因为我们马上要进入到这个后面的圆桌的环节。那我们先请周女士到到台下来跟大家互动一下。然后我们先请我们工作人员先布置一下啊这个台上的会场那。

那我们要不再请大家再看有什么问题跟周女士来来来来进行交流啊，那我们选一位中间的人士。哎，有有话筒。啊，有有人有话筒到这边吗？没人没人。嗯，好，那边嗯。Yeahな。哎，周女士你好。

就是呃我之前看过您的履历，就是我感觉您是有那个硬件这一块的经验，对吧？应该是接触过硬件的设计，还有che的设计。那我们现在其实除了这个呃哭的这个GPU我们其实还有这个TPU那实际上在美北美地区。

还有其他地区有更多的芯片，那我们现在有一个问题，在我们在T5和更多的模型，我们真正的把模型去到这个超过1万，超过1000的这样的一个呃芯片的或者机器的经验。

其实它跟我们过去在达J叉上看到这种呃基于8台机器优化的NVlink。其实应该是完全不同的一个场景。那在这个场景过程中，你们就是完全的是脱离了这个J叉的这个一些优化的时候，你们再去开发的时候。

你们有会发现你们提出了什么诉求。你们对这个软件，还有芯片有发现有一些什么样的这个新的这个呃。一些想法，我特别关心哈，谢谢O啊，这这是一个非常好的ion。然后我也涉及到了我最近在google的一些工作。

就是MOE codesign with那我们这个在这个上面的研究，它可能总体上来的一个感觉是我们过去的这个芯片设计。

包括GPU和P它都是针对一个gene的这这个verycomp intensive的这些 work做的一个ization那么他对这种你你你有很多很多的这个这种算非常非常高效。

但是在trans这个模型底下这样的硬件设计不一定是最高效的。因为它去over这个 unit它的这个comp power但是呢没有去的这个mication这之ication这就是为什么这个最近的这个H1它主打了一个我对这个。

😊，做了一个优化啊，我我这个模我的这个H100对这个MOE的这种模型是非常非常高效的，比之前的HA one hundred0的要10倍的高效。那么他们之所以能有这样的claim。

是因为他们做了一个非常快的这个 to chip，然后基本上是一个M by end的一个cro的这样的一个这个 to。

那么在我们传统的这个架构里面是不会用到这种 by inter communication。因为它非常非常贵。你们可以想象现在的一块H10的芯片，它卖到了特斯拉一样的一个价钱。

就是我们在几年前可能都不能想象，对不对？😊，对吧那有有没有可能未来一片什么Z hundred者的可能要卖到北京一套房的价格，这这也是有可能的对吧？

所以呃我觉得就是针对这个呃transformer的模型和针针对未来这个呃这个叫什么呃混合专家的这个模型，我觉得会有更多更多的specialize的芯片和系统去对他们做一些优化。😊，好，结束了。OK好。

那我们再次感谢啊周女士给我们带来的精彩的报告，大家鼓掌。😊，好，你可以先休息一下。那嗯你再请。好，那我们接下来就进入到圆桌的环节啊。那我们圆桌的环节的话呢，我们除了现场的三位呃讲者之外。

我们也邀请到了呃这个复旦大学毕业。然后在CMU做博士后，然后现在是回到上海交通大学做啊助理教授的刘鹏飞老师，然后在线连接啊，是不是可以切到他的啊，还有这个你是在海南吗？😀Yeah。😊，哎喂嗯，能接到吗？

可以可以，谢谢刘刘老师。好的好的，那我们现场就有请我们的三位讲者，然后到台上就落座。然后咱们开始我们的圆桌环节。那为了防止大家的呃防止大家的这个谦让，咱们就按照这个讲者顺序。

然后从从啊这个从第二个位置开始啊，我来占第一个位置。😊，好，那大家欢迎三位老师上台。哎，你再说遍。嗯。好呃，我说句实话，我没有提前给他们准备任何的问题啊。所以我我今天问的问题全都是突然袭击啊。

然后呃那为了呃让我们的这个呃讨论更加的有信息量哈。所以我我我会呃就是尽量少的去问几个问题。然后我们把更多的时间留给呃现场的观众，然后来给各位然后进行交流。那呃我不知道大家有没有感受到哈。

就是我们今天的呃这个三位讲者，其实给我们带来的呃这个报告呢，其实是分别代表了啊我们现在来看大模型非常重要的三项前沿的技术哈，然后分别是这个ILHF还有这个多模泰。

然后以及这个呃就是sing up这个model size的这个sparity的这个技术。那我想这个呃今天我们也是远程啊这个请刘鹏飞老师，然后来连线。那我们要不要啊我想把第一个问题。😊。

就给这个刘鹏飞老师，你能不能啊比较快的，然后介绍一下。就是在你来看你认为啊这个大模型啊，你比较关注的最关键的技术是什么？然后以及为什么，然后能不能大概用啊两三分钟左右时间，然后给大家分享一下你的观点。

然后我们再开始这个group的 discussions，好吗？好呃，我声音清楚吗？呃，这这个问题其实我觉得很有可能会呃到个人的一些研究的ex。对我来说，我觉得我觉得最重要的呃。

第一个肯定还是过程中如何把数据进行更的结构问题。其实像我们之前前面老师也说过，像这些工作其实验证了在S阶段很多时候只是在一个form或tyle上或者是这个形式上进行一个学习。

很多很重要的知识像数学推理这些东西大概率还是要放到pre这个阶段的。这个阶段其实像自然语言或者文本语言这些数据到最后还是会被穷尽了。

所以我觉得未来的重要的是不仅是这 data应该重这种 information相当于文本数据就这么多。然后其他模态数据也这么多。如何把它的结构信息也放进去。这样的话你会不会在数据比较穷尽的时候能。

更多数据可以用这个结构可以非常的丰盛。比如是不是之前我们是一个比较简单的一个tex到后可不可以变成一个M或者成一个jason而这个东西对应的另外一个原则就是我一直非坚一个事之以有糟糕的过就因模型在个存储的问题数据的存储。

而pro的是一个数据的读取。而我们就是因为过过度的依赖一些黑盒的模型，我们不知道预训的时候数据是怎么存呢。

才导致我们读取的候用pro去的才尝试各种各样去猜它去存的格式以未来数据进行结构化过程如果越来越透明的话，多问题都会得更加容易。而且型可能这据结问题。我一直得能重点重可能质量。

现在也会有更多的人去尝试研究一些RHF的平替方法。不管是像con learning或者unluck这些东西的引用。但是我觉得呃对如 model能够到怎么样高的一个质量应该是重要。

在我看是最的更都是最终的形态，可能最后应变成一个生成的的形式，还有很多的好处而这种模式可能是让我们以把 model skill可以加上去的一个东西比的型我看比小如果是更大的模型那时可能就不是一个事情总之 model应该有很多我觉得比较这种ecre一些东西探究也是我目前比较感兴要这块好的鹏飞我接下来就进入到第第二个问题啊。

希望每一位这个嘉宾都能回答其实我觉得今我们在邀请讲者。的时候其实还是考虑到了大家的这个背景的差异啊，其实大家可以看到我们的四位嘉宾啊，其实他们分别来自四个不同的背景。然后包括来自创业公司来自这个研究所。

然后来自高校，还有来自于啊我们传说中的这个大厂。那其实呃我们可以看到啊就是这个大模型，其实是对呃整个这个行业啊，所有的这个学科的这么一次非常大的浪潮啊。

所有人不管是主动的被动的都要去啊进入到这个浪潮之中。那么呃我就希望啊每一位呃这个嘉宾能不能从你自己的这个呃背景，呃，也就是说你是创业公司，然后你是研究所，然后你是这个大厂，还有就是啊这个高校。

那么呃你你感你感觉就是从你的角度啊，从你的这个背景，然后你从事这个大模型的研究或者是创新的应用。然后呃这个你你能够。呃，认为发挥的这个优势，然后可能存在的一些短板，然后以及未来。

然后呃你从事这个啊你从这个角度去进行切入。然后你觉得应该走的路径啊，可能是什么？因为我相信在座的所有的呃这个听观众，然后包括在线的同志们应该呃很大程度上是分布在这几个方面啊，除了那些投资人之外，对吗？

啊，所以呃还是想听一下我们每一位啊这个嘉宾，然后你既然选择了现在的这个呃这么一个背景，那么啊你你认为你你应该怎么能够更好的在这么一个呃这个角切入的角度，然后来发挥你的优势啊。

我想呃可能会对呃在座的所有的观众可能会比较的呃能有一些收益哈。那要不先请银行开始啊。好，谢谢啊，我想从我的两段经历来讲述我对这个大模型的一个态度。

第一段经历呢是我当时在facebook AI research那个时候呢是啊19。年和20年初那个时候嗯刚开始的时候先是谷歌出现个bot，这是鼻祖，这是呃很久很久的第一代大模型。

后来呢我们facebook呃团队做做出了，后面又做出t，后面还有一个inggo的t啊，这是我参与的的三个pro啊，对于这三，但是后面我后面很明显啊，就后面啊facebook又出现了OPT。

后面直到现在最新的啊拉马呃相比较而言，就在我在facebook的那个时代啊，所有的leadership所有的领导层都对大语言模型非常感兴趣，主打一个字就是大因为首先research是不计成本的啊。

多少钱都没有关系，没有一个budge尤其fire这种专注于open source它其实我们可以看到啊facebook真正运用成呃大语言模型商业化，其实几乎没有做。啊。

相反op openen eye并不open，他们其实是真正把大语言模型商业化啊谷谷歌在逐渐的闭环。所以呢facebook的理念一直就是不计成本。啊，我想知道大语言到底能做到什么样。

所以当时呢我们就是大元模型，在19年和20年的时候就已经在就在research行业，就是大家就不停的在讨论sing up ，sing up，sing up。但是呢后来我开始了我开始做个star up。

我的观念就有很大的改变。我觉得首先要理性的去看待这个大语言模型。尤其呢我们是专注一个非常小的segment，就是health care。我们只做housealth care。

我们所有的customer都是housealth care。那其实我们我们的使用者很多都是啊cardiologist啊，像这种年薪非常高的医生，他不需要了解怎么去处理一个啊ATNT的考。

他不需要去处理怎么去帮助用户重新去定一个啊f去改一个 hoteltel，他不需要关心这些，他只需要关心这个cardiologist，他这个用户的心脏心脏图EKG。是怎样的一个情况？

然后这个用户下一次的呃治疗方案是什么？用药方案是什么？所以呢一个通用大语言模型其实在一个呃垂直的领域，在一个啊像我们这种star up的领域其实是没有必要的。所以这是第一点，第二点呢。

专业性反而是很有必要。第二点呢就是一个实际的应用。那比如说我们一天其实要handle8 million的。那如果用一个大语言模型的话，那其实这个traic非常大。这个的整个成本非常的高。

因为而且像我刚才呃有讲到的，我们是实时的，我们必须要在几秒钟内完成scription就是ASR的一个scribe。然后呢通过大语言模型实时呃输出。

然后呢human group然后这些cardiologist去读这个大语言模型读到东西，然后进行修改提交最finalize所以这些其实需要在一秒到。两秒钟完全完成。

所以大言模型几乎不可能在如今在在现在这个情况，而且还要考虑成本，我们不能用A100去做inference。我们不能用A100去做啊product因为太了。

其实我们product只用T4这的小的GPU完成。所以说大语言模型它很酷很性感。但是呢在实际的应用中，尤其在starup在这种真正handle traffic这种s up的情况下呢。

其实它没有那么的实用。相比较而言，一个中等型号的，然后一个更专注的模型其实更有价值，更有实用价值。当然我现在所代表的观点只能到今天2023年可能在接下来的几年内恩伟达在不停的啊出现新高。

不停的inpri我们A100的价格可能只像像T4的价格一样。那后面的日后面的情况呢就很难预计。但是如今的情况呢，大语言模型在实际的production中啊没有那么。xi。好。

谢谢印行带来来自这个既有大厂的。然后也有这个star的这个经验。那刘晶老师看关于研究院做些什么谢谢我是代表这个学界，就来自研究所和高校的这种代表。我觉得其实作为一个研究单位。

无论做科研还是高校我们是科研的使命，就是要去做这种创新有用的研究。那我相信我们做大模型也是这样觉我们就要去做创新引领，也要去做有用，能能踏实服务于应用的研究。那从创新上来讲。

我觉得我们的优势就是我们有源源不断的这种学生而且大家的长我们会有一个对学生的培养是一个长期的培养。不像企业去做事情的时候，他可以去他可能需要一年见效两年见效，可能我们对学生的规划。

可能是希望你两三5年去瞄准一个问题，然后去来解决这个问题，所以我觉得我们可能就是学生的资源，以及我们整个我们的这个目标的规划，我们可以我们可以更限定一个稍微长远的目标，我们可以。😊。

有一个稳定的这样的一个不断创新的这样的研究力量的补充。所以可以这就需要我们去选择。那作为这个研就就于像我们作为这种就是我们更重要的是要有一个非常好的眼光去来做一个真正能做到创新引领的方向。

能够去呃呃让这帮研究力量更好的去发挥，不断的去引领这个呃这个领域的发展。比如说在大模型里面，其实我觉得有很多方面还是值得去探讨的对吧？比如说我们可以去做更强的这种自监督学习算法。

我们可以去做更好的这种数据清洗，我们可以去做怎么去用小模型去来解决大模型的能力，对吧？大家现在去做这种怎么把大模型的针给小模型，怎么通过小模型的协同，去实现大模型的能力。

就是主就是就说我们怎么去发挥我们的优势来呃这个来来不断的引领这个前沿。但我觉得我们的劣势可能就真在于说大模型最需要的这种大算力，大数据，可能都是我们有所欠缺的那这块我们怎么去补齐这个劣势。😊。

那我觉得可能我们我们就要去去去跟企业去做合作，对吧？我们去我们的优势来补可能我们的优势刚好可能是企业的呃一部分的劣势啊。因为其实他们可能确实要短期见效，所以我们可能在前沿前沿已经得到一些成果。

可以投入到他们的应用中可以去赋能他们，所以我觉得怎么去跟跟企业去做更好的合作，然后去实现这种优势的互补。可能我觉得是作为学界就是作为我们创新这块更重要的那做有用的。

就是我们要选择的方向肯定就要有用的对吧？就像我刚才说的，就是大数据大模型这条路径还没有看到镜头往后走大厂肯定是要瞄着这个目标去走的，要去做更多的数据要做更大的模型，那这显然不是我们学界的优势。

那我们去瞄准什么方向。我们想的就是说怎么用小而小的高质量的数据，然后怎么用小的模型去去获得对吧？这种大模型相当的这种能力，可能是这样才能然后更好的服务于应用。然后真正到落。😊，地端能够有这样一些技术。

使得大模型更好的落地，这去做有用的可能这是我们去去可以去做的那另外一块，我觉得AI for science现在应该也是大模型做的比较小，大家比较关注的那这个可能也是更适合学界来做的事情。

比如现在我们其实也在探讨说去跟生命啊，去跟去跟脑科学啊去做一些这种探索性的研究。我觉得这些I for science的这种研究，可能也是比较适合科研单位来去来去探讨的。嗯，好，谢谢好。

谢谢刘老师带带来来自于这个研究所的这个呃这么一些思考。那接下来请那个燕奇，然后带来来自大厂的这个这个思考。好，那我可能就是分享一下我在google这么些天。

然后经历了这个插GBT这么一波热点这的这个几个月的一些主观感受吧。就是可能外界有一种impression觉得啊google这个落后了，落后了，就要挨打了这个openI就是将会成为未来的google。😊。

那我个人呢我是一个就是做系统背景的这样的一个reer，对吧？我最近的可能56年在做人工智能方向的一些科研。

那我的感受就是说呢我并没有觉得我一分钟都没有觉得google哪里落后了这个 openen aI对不对？我觉得google它关注的是更长期的一个问题。

它是关注的是更能sustainably去用使用 language model更去使用 language model对吧？

去解决去进去干预性的解决一些啊这个 language model里面存在的一些问题，就比如说它是一个autoregressivegenative的一个model。他会在每一个token生成的时候。

他都有一定的概率出错，对吧？那么作为一个我们做in信息in其家的这样一个公司我们有责任说提供给用户的这个数据是sa的是这个没有 hallucination的是是是标准的是安全的是factual的。

所以我们就是干预性的尽早的去解决去试图解决这个问题。还有一个问题呢是。😊，比这个google的体量和openI的体量。

gogle是8 billion的这个DA open是one billion的1个U对吧？目前啊目前也没有说涨到10个 billion。

所以我的感觉是with difference volume difference我们尽早的太过早的操起了我怎么把这个 language model到产品里面去能在google的体量上面去服务我们gle的用户可能我们尽早的想诸如此类系列的问题。

以至于我们没有花精力去release个一个爆款，所以我从我个人的这体验来得我觉得google它的它有一个非gle有一个很的世界上我不知道跟是不是世界上最大的但是ogle世界上可以说是最大的这个gogle cloud的这P。

😊，储备和GPU的储备都是非常非常的大。然后呢我们有这个战略s的战略就是从我们这个做gogle search的这个这个体验上来讲，对吧？

如果你现在用ogle search个它的基本上延时是在0几个微秒以内的？以说你基本感受不到这里面有一个延时但是的用一个生成模型一个今天要飞旧金应该哪趟飞机给你生成秒觉得是没有一个用户是以ency而且我也个人感觉在未来的几个月几年以内。

我们没有办法把这个 language modelencygle search是我的一个个个主观的一个体验然后呢我确实是一个是gle做了我们超大规模的能够py的这种体量的用。😊。

我觉得这这个在系统层面层面上面，在软件层面上面，我们没有去依赖像英伟达这样的supercomputer。我们用一些非常便宜的机器，然后做到了这么大的scale的一个serving。

而且是for free，对不对？所以我觉得google是一个呃google应该说是一个世界上最为大大的公司，没有之一。然后我不觉得openI在未来几年内能够超过google，好吧。😡，我在这想插一句啊。

我真的是对google这个企业文化刮目相看，他能培养出这么优秀的员工，对有这么强烈的自豪感。因为我家属也在google工作，然后我没有感受到那点。但是今天我在这个舞台上强烈的感受到了这一点。

google真的是一个伟大的公司。😊，对，能感受到这个战略数力啊。好，那要不那个鹏飞作为新进的教授，然后讲讲你在高校的感受啊。好好，尤其是刚过来刚回国组队我觉得其实还是有很多想法的。

尤其在新的人深市人工智能这一我觉得主要是几一点，一个就是我觉得自己要承担起能作为学者的一些一些责任。对我来说第一点可能就是尝试去揭示出一些没有被说出来的秘密。

尤在整个技术战过程中就类似于就open open如果的open的话，能不能帮助他得更加open一些事情。你比说像各种的各种的或者或者是H到底他们不同技术细节中所演的重要性。

就这件事其实都可以耐耐心的去琢磨的可能未必是愿意花太多时间去去去研究的学术界实就可以很多时间在这方面进行一些反思去个。😊，比较正确的路，这第一点就接触出一些没有被说出来的秘密。第二点我觉得就是学术界。

包括我自己非常感兴趣，就是相当于梳理一下呃各方发展的一些战场。这各方其实包含了学术界包含了工业界包含了啊VC我自其实在VC在包括那个就这几方面能不能啊高效的人相当于站出来去去梳理一下。

然后每个人应该承担了怎样的角色，告诉这个领域，像大家各司其职，把这个领整体做的更好。这第二点，第三点我觉得就是相当于从学术上面来看，可以呃帮助整个领域去找到一些科学进步的方向。

因为我之前觉得好像科学只要只要大家一直往前走，学术论文一直往前发，就一定是对的，最可能会发现有些东西其实是走的是错的。有可能这个错误会一年或两年。但是如果有个比较好的方式，你愿意或敢说。

然后这个东西可能会有些不一样的观点，也许经过几几轮的Q就产生一种更加准确一个方向。这个东西最明显就体现在评估的方式。可能我们在做大模型评估的时候，到底怎样是一个可靠的啊比较公正的这样一个评估。

能帮助我们找到真正的准确的找到模型的优点和缺点。这个其实对未来大模型真实的发展方向，有利的发展方向，就避免走弯路还是非常有价值。学术界在做这件事情可靠安全都会有比较大的优势。

那最后一点我觉得学术界应该承担责任，就是培养学生啊深圳是人工智能这一波，其实这个人才确实是很大的。我觉得更其实我自己的感受其实并不需要真的有非常天赋异禀的学生去做这件事情。

更重要是他们知道怎样的一个一个一个一个一个一个成长路径。其实作为se的个reer或者是profe其实有义务把这个东西告诉他们带他们一起往前。大概这感受好，谢谢鹏飞，那我们第一轮问题已经结束啊。

那我接下来进入到第二轮问题。这一轮问题问完了，咱们就开放交流啊。那个希望咱们各位都尽量简短，就两句话就可以。回答呃呃，第一个就是希望你能给大家讲一讲，你现在在这个大模型的这个行业里面呃。

每天最让你天天在想的一个问题是什么？就到底是大模型的一个什么问题在困扰着你啊，你需要找出一个技术方案，也就是说你现在在在在关心的这个技术的一个难题是什么？

然后我相信这个问题应该是大家啊可能是一个非常好的一个啊研究或者是创新的这么一个选题。那这是第一个。第二个是说啊如果给你足够多的预算啊，就是没有没有什么限制。

那你认为啊这个大模型未来你希望去突破它在哪个方面的啊这么一个特别大的想象空间啊，就是你觉得比如说5年以后十0年以后，然后我们通过做什么事情，然后可以啊可以做到一个啊你觉得特别理想的一个状态。

就是有一个什么东西是你特别来想想做的，就是一个是特别短期的，一个是特别。长期的我想是不是每一位可以share一下啊，你的这个想法，应该呃应该肯定我我相信每一位应该都在平时考虑过啊这个问题啊。

那我我相信在座的也应该都想听一下大家的想法要不还是从你还开始，我想第一个问题的答案就是我最想要的就是一个非常高质量的数据集啊，数据永远是远远大于architecture的。对于我们来讲啊。

我当然我在做research的时候，数据也是远远大于architect的那条永远是第一位的ect的话transformer啊或者是加上其他的一些training tricks。

其实它的结果的impro是是微调，甚至微微调。那第二个问题呢，我觉得我在我讲的时候有有提到过，我觉得大语言模型应该做成一个生态，而不是仅仅一个point solution就是它始于文字。

但是最后要超出文字啊，比如说。我在今天的会议里提到一些东西，然后呢，他除了记录之下这个会议之后，他会有所有的action item全部一键到达。

那比如说啊我提到我今天的对话里也有提到啊我需要更高质量的数据集。那大语言模型住了我这个需求。那在日常当中我需要这个东西或者是啊他在我的日常生活中发现哎这个可以是高原的啊高质量数据集的时候。

他会自动帮我col这些in，然后发送给我，然后让我进行下一步。所以他就是像一个贴身小秘书一样啊，24小时工作啊，不间断C叫C到，而且非常聪明。好，谢谢啊，这个非常有想象。😊。

我我觉得我短期想做的就是真的想把图文音的。比如说多模态的对话能做到像大家像拆的GPT这种感受。如果大家能够去图文音，然后来去做自如的对话，来去做这种各种多模态能力的感受。那如果说长远来看。

那我真的是希望有一天真的一个机器人，他能用他的眼睛看，能用他的耳朵去听，然后能用他的手和脚去走去去触摸世界，能去跟我交互交流。谢谢。😊，啊。

可能我更想做的一件事情是说在这个啊大公司的体量上面去更好的去servve large language model，然后用到一些呃conditional computation的一个方法。

可能我想做的是一个超级大的一个分布式系统，然能够有效去 model把这个降到和google search差不多一样的个。

就是我可能长短期想做的一个东西长期我很想明白的一个问题是就是为什么现在咱们这个gen是一个auregress我不是做算法的专家，对吧？但是我很想理解这个问题。

为什么我们不能in parallel去这个东西如果说我们未来有了更强的这个力我们有了这个量子计算机gle在做这个量子计算如有了量子计算机能不能 parallel去生成我们的这个t和种种好，这个好像是。

😊，是科幻小说里面有过这样的一个设定啊。好，那鹏飞。好，比说短期其实每天都在考虑的问题就是非常简单，就是如何把数学解题做的像OI啊GD4一样好，或者是甚至更好啊，到底是什么ecre什么样的一个re去做。

然后如果给我另外一个问题，如果给我1000张卡或者是1万张卡了，我非常想做的事情就是自己走一遍把自己对数据的理解方式应该处理的方式走一遍。呃，觉得会更好。😊，完了。

那你的这个长远目标好像有点好像很快可以实现是吧？好，那个呃其实大家应该能感受到我们四位嘉宾，他的短期目标和长期目标感受上，其实跟他们现在的经历，其实都都会非常非常的匹配啊。

所以其实我觉得呃在座的所有的观众，然后其实都呃都在呃都在参与，或者是将要参与大模型的呃这个呃这么一个工作。那那么我们会认为哈大模型应该是未来人工智能的呃这么一个必然的这么一个技术路径。

所以其实你今天的决定其实是决定了你未来的这个你的路径啊，所以其实还是希望大家能够积极的去拥抱这个时代。那我就完成了我的使命了，就我去呃通过两个问题做了一下预热。那我们接下来就把这个呃我们的呃提问。

然后交给我们现场的观众，然后呃我们要不要那个呃好像。😊，我们找一位呃请这个已经提问过的，就把手放下，让我们看看没有提问的同学，然后可以呃要不站着的那位同学。站着的那位。呃，那个请所有的提问的呃。

同学都呃，都告都明确说一下，你是希望所有的嘉宾回答，还是你希望指定一位嘉宾来回答。我问一下刘老师，就是刘老师觉得就是那种机位两位。啊，两位呃中中间中间中间刘刘静老师嗯，对。

就是刘老师觉得那个机器人就是我们啊我们能像就是像猜的G地猜猜的GPT那样，就是机器人就是呃我们让他干什么，他就干什么，就是我们比如说猜的GPT，我们问他一个问题，他就能回答。但机器人我们如果给他说。

你去给我端一个水杯，他是不行的。就是我们要想完成这么一个功能，就是难点在哪里。😊，这里面就要打通很多要打通感知到决策，就是首先他得能看到水杯，然后能定位到水杯，然后他的手在能去执行这个任务。

那其实现在我觉得就现在大家做拖用大模型多模胎。其实还是我被动的提交一个图片，提交一个文本。其实这个他和我们真正智能体看到的到不一样。

人在环境中就是我我们会结合我们看到的听到了然后来去提问题来执行在当前环境下的东西，所以我觉得可能首先的一个变化，就是我的感知信息感知信息源变成了第一视角的吧？我已经是智能体自身的这样一个多模胎的融合。

然后这是感知层，就我相当于拿杯子的我要知道前面哪里有水杯具体的位置是定位之其实我就要去指挥我的手来执行这个动作，那其实这里面那去执行这就相当于是要到决策层对？要要道状态该怎么去付。

那另外还有在这个过程中还有一个问题，可能万一这个他不知道什么是杯子对？他不知道杯子在哪里这个时候他其实又需要去有。😊，一个交互的过程，比如说他可以去问，对吧？就像我们的问答一样。

就是可能他不知道杯子的时候，他可以去问你杯子旁边有什么，这个杯子是什么颜色的，他可以去问各种各样的问题，然后来帮助他更好的理解，更好的定位。所以我觉得这个里面其实要真的要把做到机器人上，机器人像人一样。

我觉得其实很多东西还是要去还要很多东西去做。但是其实范式上有多么还要感现在也有感知大模型，也有决策大模型，只是真正感知角策现没有完全打通。但其实现在我觉得路线上是大家是通的。

只是现在还没有大家没有做出一个特别好的这样的东西出来。但我觉得未来肯定会很多人往这个方向去走。😊，可以写的，谢谢老师。嗯。hello好，下一个嗯呃，我算是那个刘志远老师在清华的师弟啊，我就不问刘老师。

我我毕业之后呢，先在中科院做科研，然后你问谁，你问哪位？😊，呃，我分分别问三位三个问题。OK呃，你因为我先是在中科院做科研，然后我也高批入职做大厂，然后我也自主创作业。

所以我要分别问三位可能有点挑战的问题吧。先从右到左吧。呃，先是大厂的同学。😊，我在美国的师兄baavid way，他当时很很早就facebook就 met VP了，对吧？他一度也很执着。

但是最近两个月他告诉我，他也离职创业了。所以我想问右边的同学有什么样的机会会促使你离开google去创业？😊，对你你可以思考一下。然后问中间的这一位呃，就是我当时离开中科院，很重要一个原因。

就是张洪江老师当时跟我花一个上午跟我聊过，他极地劝我从中科院出来跟他创业。他说，如果你在体制内呆久了，我都不敢用你了。所以我当时才决定离开中科院。😊，然后来创业的同学呃。

我我觉得吧就是虽然我们创业都是AI大数据的公司，看起来很高大上，但是在。😊，甲方面前我们其实都很卑微，对吧？那么。😊，你是用怎样的心态来应对你的？甲方？尤其是中间那位同学。

他说到他可能希望呃去赋能一下我们工业界，对吧？你觉得你会有机会被赋能吗？谢谢。😊，所以你冷落了我们的鹏飞老师是吧？😊，谢谢嗯。😊，我先吗啊是什么契机会让我决定去创业啊。

就是就是n to be honest我在google的时候有有几个非常frus的，就是每当我觉得很不顺利的时候，我就会想哎呀，我还是自己出去开个公司吧。

后来呢我就是经过好几次这样的一个思考可能有时候会说真正遇到困难的时候，我会反问我自己就说你现在遇到了这个困难。你在google这么好的环境里面都没有办法解决这个困难，对吧？你凭什么说你能在一个创业公司。

在那么lim这下面你可以去解决更好的去解决问题，更好的去发挥你的这个才能，就我觉得这个是可能就是让我一直在这个大厂ush我这个现这么做做这个方向的这个原因，然后我觉得呢未来如说要需要创业的话。

我觉得大的原因可能是我在gle可能觉得有有一件我特别想做的事情。但是在我做不成只能在创业公司能够做成。😊，啊，这个事情可能就是说也许是buil一个像GPT一样的这种爆款的产品。

这个我觉得可能在短期以内就是以我个人的力量在google是很难deli的。所以可能如果我心之所念，就是想的产品。那我会很快选择离开google去做的产品。

但是呢因为我个人本的re是comp system这个面就我觉得google它是一个很好的能够发展我才能的这样一个地方，就目前为止。

我没有觉得它gogle它局限了我做rese所以我觉得目前为止我还O但是未来说不定可能我觉得我我想出去buil一个更好的computer或什么的那我觉得有可能会出去创业迎你联系我。😊，好，那刘老师。

我来说一下，我觉得其实研究所对有很多人出去创业啊，当然有很多人一直在坚守自己的科研岗位。我觉得首先就是你做的这个事情，就是我觉得要坚持自己想做的事情。

而且可能这个东西本身也确实是有有一些动态的这种这种特性。有的时候就是我我是觉得可能有的人适合创业，有的人适合做科研。当然有的人在他做科研的路上发现他的东西越来越啊越来越能赋能越来越能落地的时候。

可能这个时候他实际到了也可以去创业。但我觉得这个可能确实根据每个人不同的特性去来做吧。我觉得大模型这个事情就是比如说我们现在在做的。我们从一开始就业内在做大模型，大家都在做语言大模型的时候。

其实我们在做多么太大模型，到现在我们也不觉得我们的多么太大比企业做的差。就我觉得我们现在在很多视视频理解的任务上，其实我们我觉得我们做的一点也不差，然后后来在未来再说我就刚说未来如果要去做机器人的话。

那我觉得像这种前沿的东西大厂可能就是可能企业他不一定去投资去做这个事情。😊，但是我们作为如果做K单，我可以去大胆的去做这件事情。就所以我觉得可能每个人都有自己适合的路，在不同的时期都有自己适合的路。嗯。

谢谢，谢谢你好，意涵。😊，呃，他的问题是怎么服务甲方是？甲方心态以及你是否觉得需要被写受界付呢？那我用啊九个字来形容吧，卑微呃呃，不是9个字，1二个字，可能卑微到尘埃，有求必用，随觉随到。

呃好共勉共勉好，那个我们因为可能还有不到半个小时的时间啊，然后我们为了能够更加增进交流，那接下来还是请我们所有的问题尽可能的简短，所有的回答，尽可能的简洁。那那请我们的那个工作人员找呃这个选一位啊。

行吧。呃，感谢各位老师的分享。我想问一下刘鹏飞老师怎么看待呃带语言模型做reasoning这件事情。因为看到很多呃学术界研究，包括工业界都在尝试用拉 language model做。

尤其是做mathematic reasoning这种事情。当然也有一些研究反对者说语言模型就不应该做数学题这种事情。我们可以用调用to就是工具呃，hing gPT这种方式。呃。

想问一下老师怎么看待呃拉 language model做reaing这这个事情，谢谢。😊，啊，你好很好的提问。其实我觉得这个问题，大家心中可能都会有一些答案。

确实你说的两种方式或者更多种方式都会反复被被被提及。我觉得终极的我自己的觉得一个终结答案可能就是大大于训练语型做matic基本盘。

然赋能其他的工具一个不管是外挂还还是插件还是工具其实也是必要的不可能会缺少的。所以一个比好的事情我开始来做的话可能先去梳理一下所有的matic到底是有哪些类型不同类型你觉得最合适的解方式是什么？

前两天那个ogle放出来的。他们说相当于给了那个一个一个可以调用外部工具的机会的时候，他们整体的解数学的性能能提30%相当于这个东西最终gle也会把它放个事情去做所以其实调用工具还是还是用用大训练去最应该是都需要做。

😊，只是最前者反倒更难。只是调用工具的话，无非就是把这东西转化成一个啊如何更好使用工具，然后如何更好生成code的东西的时候。可是当你有个非常复杂的一个问题，有多步推理。

然后转化成一个形式化数学问题的时候，这个是靠的就是大于言语言模型。嗯，有些东西是个编程语些东西就要靠那个那个rason那个券，就需要大于文型来生产。总之啊比较理解好这不同的数学场景。

然后呃分析好到底是更适合用什么去解决，然后用大玉片模型去或者是工具选择更更适更适合的场景。然后再做比较好的切换，我觉得应该就是最最终的归宿了，就是不要否定任何一个。

然后那个但但是我担心预片有模型可能是更靠前的一个对。呃，谢谢谢谢。好，那请我们工作人员尽快的帮着找一位这个提问者嗯。😊，啊想问一下那个周艳琪老师在google训练大模型的过程中。

克服模型的ucination啊，就有什么很好的pracice。如果有涉密的话，对吧？也可以介绍一下业界里面要设计什么样的数据集可以很好的克服模型的ucination谢我觉得可以借助大的语言模型去一个一个mod对吧？

就比如说那个最近的re它是做了一个RLI吧用了一个更大的的个语言模型。 tune这个语模型去做一些class就比如说让这个更大的模型去判断这个小模型生成的数据是不是是不是有 hallination就是他可以用这个大语模型去做一个标注的这样的一个事情。

然后还有一个呢我是觉得可以结合gle search或ing的这种办法，就是你每。😊，成的一个东西，你都生成一个索引，就是一个tation。你这个你这个东西的源头来自于哪，对吧？

然后你你如果有了一个很好的源头，你就可以这个user就可以check，我的这个生成是基于这一段文字后我去查这一段文，后看这段文字不能够值得信赖。

后有有有没有就是如是一个很很的一个一个ublish我可能就源头就是我觉得一个比的一个是一个classification的一个model可能这个classification model是基于更大的模型更power的型。

后还有是可基于 search种这种mod。好，下一个问题。几位老师好，我现在是目前在工业界，然后用大语言模型解决我我们一些业务问题。现在遇到一个比较大的问题，就是呃我现在大语言模型的话。

基本上它的那个序列长度基本上都是2000或者4000左右。比如说要处理更长的文本的话，几位老师有没有一些比较好的一些方向和建议，谢谢。😊，看哪位老师能回答这个问题。啊，我们有用sidingwin。

我用sling windowdow在不同的window里做generation，然后再ag整个呃出来的东西，再做一次generation，就是不同的window之间差异会大吗？就是会。呃。

你要保证你的training data要额爱好，就是说你training data如果只有前半端，你做个的话，那你吹出来的model结果就会差很多。那如果你training data本身就有中间端。

有后面端，有前面端，然后它是AI好的，在标注的时候，那它吹出来的结果就会呃质量高很多。啊，谢谢。好，周老师有。你有有有有我可以我可以分享一下这个经验啊。

因为现在这个呃GP four已经把这个sequence lens卷到了32K的这个s lens这个是非常就是的。然后google肯定也要做类似的这种工作。然我大家都知道这个我们当个更了之后。

他的这个算的最大的瓶颈是at是那么理所当然的我们应该用更的个at去取代这个 attention后我们如果大家读了那个早期的那个他用了一个就是他有一个 attention就他用了一个 attention方法就是和我之前提的方法有一点类似。

然后呢我觉得大概率他们就用了这个 attention机制，这是我的一个个人的推测然后呢我们现在也是。😊，在做一些相关的工作。

就是further scale这个ten layer to over100 k sequence lens这种工作。对好好，下一我有个问题问一下那个周女士老师。

然后那个我们就知道那个大模型也是现在有出现很多幻觉。那这个MOE的这个模型，他有没有对这个知识啊，他有没有更显示的这种存储啊，或者说用MOE有没有更好的方法来解决这个幻觉的问题。

我我觉得可能就是有一个可以做的方向，可能是说我create了一个就是更safe的这样的一个expert。然后呢。

这个expert它可以基于这个呃我有一个个一个 check它可能基于这种AIed的这种classifier。然后呢去对这个呃这个专家模型去做一个。然后呢这个专家模型它可以说我非常非常精准。但是呢我很。

我能保证我说话是99。9999999 accurate。但是呢我我说的话很，你们要不要选我就是我觉得可以一个非常 corner的 case就是create这样的一个非常fual的 expert。😊。

但是他说话说的话不是非常creative，就是我觉得这是一个短期内可以做的一个东西，用MOE做的东西。好。哎，那个我想请教一下飞老师，就是关于那个模型推理这块就是呃模型推理和数学计算。

我们在实际优化的时候，可能先去要把模型推理这个呃逻辑关系要去理清楚，然后再去做下一步的数学计算。那实际我们在，如果说是在一个小模型上去做一些这种优化。因为拆T或者说是内一些大模型的话。

其实在这方面表现都不是特别的好。所以这个地方如果说是用小模型做一些优化的这种方向的选择的时候，数据集。第一个是我们怎么样去构建一个数据集。第二个针对这个数据集的话。

我们怎么样去做一个比较sor一个评估吧。然后第三个是针对这个小模型的优化。因为阶段的话，其实成本比较高针对小模型的这种优化的思路是不是可以合理的到我们在这大模型的这个阶段。

O其实我我首先首先先先分享一个观点，就是我觉得做这种复杂推理觉得呃一定不只是S某一个单独阶段的事情是一个非常全甚至加后面影响能包的选择先不说大小模型这些大模型可能如果做的比较好的话，也有这几个阶段。

至少基本的推理的一些概念。比如像最公约数这些是么意思都不道的话，根本理构造关的料可以到的。放进。然再说我觉得还没有一个重的事情能构造的就是就是这种东西其实模永远。😊。

根据历史信息到下一个词数学这种东西怎么可能呃就是那么简单的就可以预测呢？以对于数学或者多步推理这个东西一定要把中间的推理步都给展开。

永远不支是不只是一个Q和展适得不管模型还模型够构造质量然后转很舒服的去下一个的测就很舒的去抓它的ence个重要的事情。这个过概放阶根你想去做的不同的场景，然后去设计出你想解的就当就。忽略多步推理要。😊。

是这样，当这个东西做好之后，我觉得再考虑啊小模型小小模型如果你有比较好大模型之后，大家可以直接进行knowledge的一些一些，但也可以尝试着在一个至少我之前尝试的一些经验，就是很小的模型。

包括13B或30B以内的。如果直接去做啊会比较难的获得一个非常好的性能。我觉得我自己非常尝想尝试能不能在一个比较大的模型上，先把它啊正常的技术路线给export出来，然后再往小的去走。对。嗯，好。

谢谢好，下一个问题。各位老师好呃，请我们工作人员呃，这个把这个话筒尽量的这个各位老师好，我有两个问题想问一下，就是第一个问题就是呃问全体老师的，就是我们现在所已知的大模型啊，基本上都是被动响应式的。

比如说你问一个问题，他给一个答案。那么未来他有没有可能变成主动式的。比如说针对一个具体的任务，然后他可以一步一步引导我们去搞定这个问题。然后第二个问题是想问一下创业界的这个印涵女士。

就是对于一个特定行业而言，我们呃如何去也收集一个高质量的这个数据群呢？呃，我两个问题一起答吧，先答第二个问题呃，用户data其实是用户create data是最高质量的data。

尤其企业用户cate的 data是是非常高质量的data，因为我们个人用户来讲，我们可以很随意的去做一些事情。但企业用户他们他们的用户他们是被企业发放工资所以有配就mo。

有 motivation就是qu啊，这是第二个问题。第一个问题是什么能重复一下，第一个问题就是我们现在的模型基本上都是被动响应式的嘛？就是你问一个问题他答一个答案。

那么未来我们有没有可能把这个模型调成主动引导型的。比如说针对一个具体的任务而言，他可以引导你一步一步的去搞定这个问题啊，这这是一个非常好的创业方案，我觉得呃如果能把它真正bu成产品。

当然我觉得ro map还是挺清晰的那他非常非常的attract这。如果我有钱，我会投这个想法。好，谢谢用户粘性会很高。嗯，好，下一个问题。哎喂，我我我这边有个有个问题就问一下那个印涵女士啊。

就是就是你在哪个位置在在在能在这O，就是我们在现在做 to的我们可以认为的那个算法服务对吧？不管我们用大模型还是怎么样的就是我们你你现在我们现在dever这个模型的时候是啊客户定制的嘛啊。

这是第一个问题。第二个事情是我们的交付成本这样Y如何因为做算法交付，尤其是做就是他不是所见即所得嘛，对吧？所以这里面我不知道现在我们在这个交付上面啊，有没有遇到一些就是成本怎么样啊。

然后第三个事情就是从你刚开始创业到现在就是模型已经发生了一些变化，尤其是这样的一些技术的出来那这些这样的一些产品啊，如果我们。😊，拥有这样的一个一个一个一个我们直接接GT four的话。

是否能够降低你的那个交付成本啊。第第四个事情就是啊我们用大模型去做那个公平起见，你能不能不用问那么多问题。好的，好，三个问题，谢谢啊，那我尽量一起回答吧。

第一个就是用户呢呃企业用户是一定要有自己的模型的。而且很多时候很多时候企业用户需要自己的模型存在自己的infer上，因为这是一个安全性能问题。因为企业用户可能把他的。数据发给你。

然后让你去服务其他的数其他的客户，他的竞争对手。那比如说啊世界最大的呃 medicalical device公司是我们现在的客户。在我们签协议的第一天。

他就说我们的数据不可以用我们数据是不可给我们comp这这个是写在tract这个非常重要。所以没有啊任何企业数据企业用户目前是用 model至少我们的企业用户啊，这是第一个问题。第二个问题。

你问的是G4的问题是吧就根据我刚才讲的我的那个lk里有讲我们的非常简单就是我们原先在没有I的我们的这些用户用多久提交答案或者是反馈给用反给他们的客户有了我们的mod的度有多这个就是我们其实我们有re他们的75。

howwork啊，所以这个ROI很高的。也就是说他以前写需要10分钟，那他现在由我们用我们，然后再去改，只需要2。5分钟。啊，第三个最后一个问题是GPT4是吧？GP4它有一个很大的隐患问题。

就是你需要把你的数据发给他，发到他的serv端。这个在任何一个注重数据隐私的公司都是不可能的。尤其像这种非常 data是不可能发到G的。所以GP4像是一个更啊是是一个更科研的。

然后或者是个人用户的一个东西。至少我不会把我个人的信息发送给GPT4嗯，好，那个因为我们还只有不到9分钟时间，所以我们再保留两个问题。问一个问题。

就各位老师现在那个pro engineering已经比较火了。国外已经出现提示工程师的职位，我想问问各位老师怎么看提示工程师作为一门职业或者说提示工程作为一门工程学科的发展。好，谢谢。呃。

你是希望每个老师都都回答吗？还是呃我我想听听就大家谁有想法，我者想想问一下，就想听听各位的意见。对啊，我觉得就是这个呃这个叫什么pro tuning工程师，这个职位会比世界上任何一个职位都更早的消失。

这是我的一个一个判断。这个因为那个曼好像他自己都说了这个职位可能很久不久的将来就已经不需要了。因为我们现在目前有一个什么work叫soft prompt tuning就是promp你可以用一个gre的形式去直接去oft去这个pro你就不需要去人工的就是说我觉得在不久的未来我们可以就是matic这个pro啊不是说需要人工的去做这样的一个tning对。

😊，哎，赵老师。呃，还其他几位我觉得我的想法也差不多。我觉得这个可能是短期大短期有效。但实际上我觉得作为一个长期的职业或者作为一个方向去做，我觉得可能价值不是特别大吧。呃，周老师你好，就是我有一个问题。

就是我在您的那个介绍里面看到了一个就是关于大模型的一个连续学习的问题。就想问就是在大模型的未来的发展当中，他的评价体系中，是否可以把连续学习的这种能力作为他的评价标准之一呢？呃。

我觉得应该就是我们的这个benching里面，应该有一个这种持续学习的这样的一个能力。因为如果如果不推，如果不不这个encourage大家去推进这个能力的这个实现的话，嗯。

这个training large language model将会变成一个大厂之间的这种恶性竞争。因为大厂它拥有这个世界上绝大多数的这种计算资源，它可以去重复的每两年甚至每一年去训练一个更大的语言模型。

但这个这个资源是不是所有其他的公司或者是学校具备的。所以我觉得呃这个可以把它作为一个benching的一个标准来以后去推进。嗯，好像好像大家进展比较快。那我接着往下回接着好然后我问周姐好。

我这里有几个关于那个你问谁，你明确一下周姐对。就是关于的几个小问题啊，就是第一个就是我们都知道那个一个power的，它其实对于我们一直往上去以后。

它其实会变得非常ient然后也就是我在想会不会有一些新的工作或者大家会去讨论就是这个power会不会可以被break如说成个甚至成一个就是以比如说在这个data的这个维度。

比如通过一些数据选择之的方法可以让他得对就是可以就不要依赖于数据power的增加能的增加，这样就有不太好。对我看到有斯坦福他们有做了一个工作。

但是它是一个非常后个上做的一个但是我不知道就是在大大厂里面对这一个非ment的问题有没有就是在真正的实实践中的上做过一些探索。😊，对，这是第一个。

第二个就是我看到您是出于这个sing law所以去做的MOE的这个模型。MOE确实我们知道它相对来讲推理的时候，data就是会会pri efficient一。但是我之前看到过也是deep的。

就是他们做过那个MOE的scal了，他其实也是一个power的。所以那我们到最后会不会就变得我们MOE也会面对同样的这样的一个sing up的问题。我觉得这个同学的观点非常好呃。

你说的那个power law我我觉得就是可能有两个方面，我们目前的power law主要指的是这个预训练这个阶段就用这种unsupervisedtrain这的里power law然后我并不觉得有什么的方法可以就是去power law因为我觉得这个这个是这个是很多过去的这些理论的paper都已经证明过的就是我们为了去实现这个 skill这我们需要在模型ac上面去一个ex个这是我觉得面这么就是你没法去这个但是你可以去shift这个我觉得做的一个事情。

就是这个让他它有一个改得更陡峭一这个意思我还有一个小问，就是。😊，呃。🤢，就是我最近看到有一些工作啊，他们认为说那个大模型在训练的时候，当他比如说超过6。7B以后，他就会出现很多特别大的值。

然后很多的其他值会变得越来越趋向于0，少量的会变得特别大。然后这个可能也是他更好的泛化性的一个来源。也就是说就是即使是dance的 model，它在训练的过程中也会出现spa structure。

然后这样会不会导致这个dance的模型也会逐渐变得有一些MOE的特性，以至于他俩最后可能会分不开。😊，对对，你说的非常对。

就是我们现在也有很多re是不是基于我们这个m of expert因为m它是c for这种像PU这样的这种这种结构。

这个你没有一个很好的种ity比你刚说的种模型词mod里具ity这是我可以很好这个我 system里面有il我我们基的是所以我们没有法好的种前为止没有没有很好的法去这种structureity以这是在歌我选这种混合模型ularmod行多补充一下这问题的回答就是实我们在年的时候做过类似的。

😊，这种发现就是你基于这个transformer架构的模型啊，你是它的确是会自动的出现这种悉数激活的现象。你是可以去把它转成1个MOE架构的。只有这个是是可以做到的嗯。

就如果有兴趣可以看我们当时发的论文也可以啊，就这个没问题的，就是你你的这个inside是对的嗯，好，那那个我们只有两分钟了，要不把这个机会交给别的同学。啊，我问一个问题啊，就是呃我也是re。

然后学了一年的计算机，然后现在有点迷茫，就是想问问各位老师会给现在的学生一些什么样的建议呢？呃，刘鹏飞老师。哦，我我觉得可以先呃呃我之前常说的就是呃主要是先认清目前整个大时代发展的趋势。

因为在这个趋势下做事情会事半功倍。还有一个就是都尝试发现一下你自己最独特的那个优势是什么。然后把它和这个大大趋势发展到一起，或者个技术结合到一起。这个时候你更容易在这个领域做的很好。对。😊，呃。

我稍微想补充一点，就是呃我是觉得你其实已经选择了这个方向的话，我是觉得你首先要感到非常的幸运。你比这个世界上的绝大部分人都正都更加接近这一次的技术的革命哈。所以你只要意识到这一点。接下来不管吃多少苦。

你都觉得应该是值得的啊，加油，谢谢谢谢老师。😊，好，我们还有一分钟的时间啊，最后一个问题嗯。呃，我想问一下这个叶航女士，这边这边啊。啊，好，你好呃，我想问你的问题。

就是这个嗯小模型怎么会呃怎么样不被这个大模型淹没啊。那么就说基于我这个多年做NRP的这个经验，那么之前做了很多年，那么这个。下了GPT出之后。

那么之前的GPT的呃之前做的这个自然语言处理的相关的工作就基本上都。都这个失去意义了，或者是没有没有多的作用了。呃，那么现在这里的问题就是呃同样的嗯。我们做这些小模型。他的一些这个。功能。

比如说我们这个GPT4或者GPT5出来之后，比如说像叶涵女士，你们做的这个。不去，那么他在哪些性，比如说性能或者是一些功能上面，会不会被GPT5啊或者是其他的大模型给他们这个表现的更好。呃。

另外一个就是能快一点吗？因为我们时间。好的好的，我就是也是这个问题的啊，也是这个问题的。那么就说同样另外一个除了性能，另外就是这个数据隐私的问题。那么现在这个GPT4。

他们这个plus用户已经就是说对用户的数据，他不会收集啊，然后还有那么说我们会不会有一些其他的这个。😊，中间层呃来进行这个数据隔离。那么这样的话，我们是不是就说不是需要所有这。呃。

业务都去建立一个小模型，那么会不会这个大模型通知啊，谢谢啊，其他老师如果嗯好谢谢呃，首先我明确一点，我们也有很大的模型，我们有80G的模型，但是我们的模型只是不是实时性的，我们更是的对于这种大模型。

我们不仅仅只用小模型，这是第一点。然后第二点呢，回答你的问题，就是当你f tune的 data足够多的时候，如果你的finune data side能到达10 million的话。

其实小模型的performance应该是和大模型一样的甚至更好。因为大模型在une时有不稳定的因素，那小模型非常的快。啊，这是第二点。然后第三点是用户隐私的问题。

那这个它收集不收集用户去mod是一个问题。还有另外一个更重要的问题，是reponsibility的问题。当用户的隐私被泄露的时候，谁负责，我想啊open eye它是有免责的，就是他不用你的。

他不收集你的数据，但他同时不保护你的数据。如果有hacker就hick了你的数据，导致你的数据在网上能被所有人doload的话，open eye是免责的。好，谢谢谢谢。好，那呃这个我们时间已经呃超时了。

那但是我想最后呃我们今天下午的这个时间过得非常的快。但是我我其实还是想最后呢不能免俗，然后呃希望我们四位嘉宾呢，最后利用最后的机会。啊，因为我觉得在座的人士啊。

应该说绝大部分的应该都都是呃刚刚进入这个大模型的领域。那么各位然后作为大模型这个领域，已经呃这个呃耕耘已久的。那么对于这些刚刚进入的呃这些呃，无论是同学还是说从业者还是说投资人啊。

就你对大家加入到这个大模型的这么一个方向啊，你对他们最大的这个呃这个这个呃忠告或者是建议是什么？然后你能想到的马上然后能够给大家分享的一句话，好吧，然。😊，哦，那咱们就用这个每一位，然后说一句话。

然后我们来结束我们今天的这个论坛。好吧，那要不我们首先还是从银行开始，我可能说三句话吧。已经说一句啊，我本科学的是化工，然后呢，后来自学的呃计算机，然后有幸进入做research。

发表了一些呃NOP的东西。现在呢在创业，所以呢没有任何一样东西是恒定的，没有任何一样东西是一直popular，一直风靡全球的，但是总会有新的东西到，所以stay tuned。啊，不停的去改变自己。

迎接新的东西，找到自己喜爱的方向，不能追逐也呃追逐自己的梦想，但是不能随波逐流。好，谢谢银恒。😊，我觉得我差不多的意思啊，就首先要坚定。我觉得至少在未来的35年，我觉得大模型确实会颠覆很多领域。

再一个就是坚持坚持做你自己认为你觉得有价值的东西。最后我觉得真的是不要盲目追风啊，谢谢好。😊，可能我的建议就是对对这个媒体啊或者是投资人啊，或者是同学啊啊一样的。

我的建议是对大模型保持这个caiously optimistic。就是我们要认识到他的一些局限性和危害性。然后呢，我们在做事情，在做科研的时候，可能更放眼于未来。

就不要说我们解决的就是未来三个月或6个月的这个事情。我们可能做科研的时候，更要考虑的是未来5年十年，我们要解决一个什么样的问题。就是你带着这样的一个预测去做科研。

可能可能就是说对未来这个社会也能做更大的贡献。嗯，好，要高瞻远瞩嗯。很像呃前伟讲者的一个观点。我觉得很类似像比尔盖茨之前也曾经说过，其实做人工智能要很需要有责任心。就是你最终的目标是什么？那个够。

我觉得那个Von如果是可以推动全人类更好的话，我觉得你做每一件事情都不太会有错。对，大概。好。好，那这个时间呃总是过得很快。那我们呃今天下午这个技术模型的前沿技术论坛，然后就到此结束了。

那再次感谢我们所有的线下线上的这个啊观众。然后也再次感谢我们啊，应该说在座的四位嘉宾，然后以及我们呃刚刚离开的这个啊我们的这个林永华老师。那再次感谢大家。好，谢谢主持人。😊。

posted @ 2024-10-20 02:33 绝不原创的飞龙阅读(4) 评论(0) 编辑收藏举报

刷新页面返回顶部

龙哥盟

掠夺·扩张·投机·博弈

智源大会-2023-笔记-四-

智源大会 2023 笔记（四）

具身智能与强化学习论坛 - P1 - 智源社区 - BV1Jo4y1772U

基础模型前沿技术论坛 - P1 - 智源社区 - BV1hu411h74n

公告