Go-Bigger访谈录|清华老师指导,青海吉林三校跨省组队挑战多智能体设计
2022年5月28日,OpenDILab举办了全球首届“AI球球大作战:Go-Bigger多智能体决策智能挑战赛”(以下简称“Go-Bigger决策智能挑战赛”)线上颁奖典礼及Workshop。
经过半年多的激烈角逐,最终有6支队伍从近1500支队伍中脱颖而出,获得15万赛事奖金。
比赛共设冠军、亚军各1名,优胜奖4名,共同瓜分15万赛事奖金,目前各类奖项得主已出。
OpenDILab将发布“Go-Bigger决策智能挑战赛”选手风采系列报道,为您揭秘挑战赛选手背后的故事。
本期Go-Bigger访谈录将为大家带来白色Tshirt队的故事,白色Tshirt队在本次比赛中获得第17名的成绩。
白色Tshirt队的指导陶品老师平时并不经常打游戏,但是球球大作战是唯一的例外。
来自于清华大学计算机系的陶品老师,研究方向是人机混合智能。因为对口支援的关系,也在青海大学兼任着教学的工作。
“球球大作战是我自己为数不多的会玩的游戏,所以还比较熟悉。我也觉得强化学习能够在这个游戏当中能够得到很好的体现,所以我就特别鼓励我的学生来参加这个比赛。”
“但是这次比赛其实我做的工作并不是特别多” ,陶品老师谦虚地说到,“我们这个团队的工作主要是由张宇他们完成的,很惭愧,我就做了一些微小的工作。”
张宇是陶品老师的学生,也是白色Tshirt队的队长,来自青海大学计算机系专业硕士。
张宇和他的小伙伴们是在去年的12月份的时候通过OpenDILab微信公众号了解的这次比赛。在陶品老师的鼓励下,张宇和他的队友们一拍即合便组队参赛了。
框架基础决定上层建筑
张宇很是喜欢OpenDILab强化学习的算法框架DI-engine,认为它的模块化做得很人性化:“它把数据加载,以及神经网络框架和训练算法部分都分成一个个单独的小模块。我们把需要的模块拿过来,然后再去把接口参数写好就行了。这是对我们强化学习代码开发者来说是非常友好的”。
研究算法、跑模型、修改bug、打榜......白色Tshrit队参加比赛的过程和其他队伍并无二致。不过张宇觉得,baseline模型是研究强化学习的基石,只有真正地理解了baseline,才能积基树本,因此他们队伍非常重视对baseline的学习。
比赛开始后,张宇首先花费了整整一个月的时间把baseline给搞懂。对此,他觉得, GoBigger的实验环境还是相对简单的,对于研究生或者本科生来说比较容易上手。“搞懂了baseline,相当于插上了翅膀,在此基础之上完全可以拿GoBigger的环境来做一些学术研究或者辅助改进,真正意义上的学以致用。”
强化学习,机器学习...首先要会自我学习
纵观全局比赛,张宇觉得,如果说在算法研究和强化学习能力上的提升可以算是“技”,那在自我学习能力上得到的锻炼就是“术”。就像前文所说的那样,张宇和他的小伙伴们花了整整一个月的时间来研究baseline,在此期间他们也看了很多经典论文和代码。
但是读了论文和读懂论文之间,还是存在着不小的差距。对于自己不能理解的知识点,大家便集思广益寻找其他解决途径,有的小伙伴在B站上找到比较通俗易懂的视频,有的小伙伴则去各大网站发帖求助,张宇则更多的时候在QQ群里直接问询问DI小助手,或者与指导老师陶品交流,询问老师的建议。
通过反复切磋打磨,白色Tshirt队的战绩也变得越来越好了。
强化学习的两条路径
采访中,我们也聊到了多智能体强化学习的发展。
陶品老师认为,智能体研究在业内依然是一个难题。在工业界,因为市场上有着一定的技术需求,所以在智能体研究的算力上有着足够的支持。而在学术界,研究的路径似乎还在摸索的阶段,两者之间PK打榜的差距便是最明显的体现。
对此,陶品老师认为,对于有明确应用需求的问题,学术界应该用和工业界不同的发展方向来开辟一些新的领域。对于强化学习,他列举了两个路径,其一便是工业界目前所推崇的技术路线,以加快训练过程的速度来提升其效率,比如AlphaGo就是这个技术路径的一个代表,用最大算力的存储以达到计算能力的并行化。
另外一种技术路线则从另外一个角度出发,从不强调算力的方式去进行学习。陶品老师说,比如一个七岁小朋友玩球球大作战,他的学习方式不是依靠巨大的算力和存储,而是从习惯、模仿等其他方式完善这个行为的逻辑。同时,陶品老师也觉得现有的深度学习技术在AI校正上的机制也是非常值得研究的。
多智能体是机器学习皇冠上的明珠
对于张宇和队员们在比赛期间的表现,陶品老师也是给予了充分的肯定。他觉得,智能体研究是现在机器学习研究的一个前沿领域。但是整个技术社区的热度还不是特别的高。从宏观的发展趋势而言,强化学习很可能是继图像处理、自然语言的处理之后的又一个技术热点。从研究价值上来看,智能体研究就如同皇冠上的明珠,存在着一定的社会需求,却暂时还没有人能够完全把它攻克,这使得这颗明珠的光芒变得愈发璀璨,也让机器学习从业者对于研究攻克这一领域更加兴致勃勃、乐在其中。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· winform 绘制太阳,地球,月球 运作规律
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 上周热点回顾(3.3-3.9)
· AI 智能体引爆开源社区「GitHub 热点速览」