一个疑问:foundation models , 现在已经有了视觉的大模型也有了语言大模型,那么什么时候会有强化学习大模型,更准确的说什么时候会有强化学习的基础模型(foundation models)

一个疑问:foundation models , 现在已经有了视觉的大模型也有了语言大模型,那么什么时候会有强化学习大模型,更准确的说什么时候会有强化学习的基础模型(foundation models)


相关:

https://www.youtube.com/watch?v=QPQy7jUpmyA


image



首先,要声明,这是我早起赖床时候想的一个问题,可以说是完全的胡想的一个问题。

其次,必须要说明的是,我认为这个问题是一个伪命题,因为我认为视觉上不可能出现一个强化学习大模型,因为不论是语言大模型还是视觉大模型,其都是面向于具体的应用和某个具体方向的,这就像不会有监督学习大模型和无监督学习大模型一样,因为这样分类的话实在是太过于宽泛,而且要知道即使说现在大模型特别多,各种的foundation models,但是其实不同的领域和不同的应用都是有着不同的各自的大模型的,比如:生成图像的有图像大模型,生成视频的有视频大模型,对话系统的有语言大模型,识别物体的有视觉大模型,下棋的有下棋大模型,进行天气预报的有天气预报大模型,进行工业设备故障检测的有工业检测大模型,等等。可以说现在的大模型和foundation models看着很强大,但是其实各个模型都只是针对某个细化领域和具体方向的大模型,而不是像监督学习、无监督学习、强化学习那种把所有的学习类型或者某个大类的学习模型都包括,一个最简单的例子,语言大模型只是无监督模型里面的一个小部分,只是无监督学习里面的自然语言方向的对话系统中的一个模型,但是实际上无监督学习里还有其他的方向,比如无监督的视觉学习模型,等等,而且现在的语言大模型也只是对话系统大模型,而自然语言里面还有细分类别,比如:语言转文字、文字转语音、语音和语气、人物年龄、男女性别相互匹配、文章摘要总结、因果逻辑推导、文本分类、情感分析,等等,但是不得不说的是现在的对话系统的语言大模型也确实很优秀,因为现在的这个模型除了能生成比较要人满意的对话同时还能解决翻译、和简单的文字总结以及一些简单的逻辑推理问题,但是即使如此,作为人类历史上目前最优秀的语言模型现在依旧只是解决部分的NLP问题,而不是所有的NLP问题,更不用说是监督学习和无监督学习这种大分类的层面了。(据说今年年内OpenAI继推出ChatGPT后要推出AI搜索引擎,对标Google,不过这也是后话了,而且即使把搜索加上那也是两个大模型,一个是ChatGPT大模型,一个是搜索大模型,而不是把这两个产品做到一个产品里面)

最后,可以知道语言大模型(特指对话系统),其难度和所需的数据量是要远远小于视觉大模型的,NLP是人类后天创造的,这个数据数量再大也是有限的,Web级的文本数量再大那也只是以GB为单位的,但是视觉是自然觉本身就存在的,一个物体在不同的光照不同的角度下的呈现都是不同的,更何况自然界中的物体存在的数量是远远高于人类创造的语言文本的,而且视觉数据的收集难度也是远远高于文本数据的,毕竟电子化的文本数据是可以用爬虫爬下来的,而自然界中的图像数据总不能拍人一个一个的拍下来,而且还需要不同角度的拍,并且同一类物体其外表也是不尽相同的,比如苹果也还分品种、颜色、大小,等等,因此单从数据收集上来说数据大模型就很难做到语言大模型的这种程度。那么对于强化学习来说,这个数据量就更大了,甚至是最大的,自然语言是人类创造的,视觉图像是自然界中本身存在的,而强化学习是需要人类和自然界中物体进行交互的数据,这个数据量力量上来说是自然语言数据量与视觉图像数据量的乘积,注意,这里是乘积而不是加和,可以说这个难度是远远超过语言模型和视觉模型的。



上面先分析了强化学习大模型在理论上就不可能出现,然后又出数据量收集和学习难度上来分析强化学习大模型存在的不现实性,下面就该说说未来可能存在的“强化学习大模型”,注意这里指的是pseudo foundation models for Reinforcement Learning。

我认为未来的强化学习大模型肯定是存在的,当然这里是指“pseudo”版本的,也就是面向于某种特定场景的大模型,比如分拣系统的强化学习大模型,这种foundation models可以快速的适用这一类的问题,比如可以适应苹果分拣的场景,也可以快速适应梨的分拣,还能解决工件的分拣,还能解决垃圾分拣,等等。未来的强化学习大模型应该就是该种形式的,只是面向某一类场景下的大模型,这种大模型虽然感觉好像low一些,但是其价值是不会比语言大模型和视觉大模型差的,甚至更有实际价值,因为我们的各种科技,各种AI大模型最后都是要服务于实体经济的,不能落地的科技还是不完整的,还是对未来这种pseudo版本的强化学习大模型抱有期待的。



posted on   Angry_Panda  阅读(35)  评论(0编辑  收藏  举报

相关博文:
阅读排行:
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· 单线程的Redis速度为什么快?
· Pantheons:用 TypeScript 打造主流大模型对话的一站式集成库
历史上的今天:
2022-05-06 不符合自身利益的科学讨论是否应该得到尊重—— 读《自家员工质疑Jeff Dean领衔的Nature论文被解雇,谷歌:我们彻查了,质疑不符合标准》有感
2022-05-06 【转载】 CV往哪卷?李飞飞指出三颗「北极星」:具身智能,视觉推理和场景理解
2020-05-06 【转载】 NetworkManager——nmcli命令连接WIFI和创建热点
2020-05-06 树莓派3b+ ubuntu mate18.04系统下的kodi软件 实现airplay投屏

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

统计

点击右上角即可分享
微信分享提示