决策智能 - 随笔分类 - OpenDILab

给你一个 PPO × Family 课程，撑起整个决策 AI 宇宙

摘要：序幕童年经典游戏 80、90年代出生的人，红白机总是童年时光重要的记忆片段之一。几叠游戏盒，两个手柄，就可以开启一整天的欢乐时光，乐此不疲地探索各种红白机游戏中的玩法、机制、彩蛋。虽然只是2维平面上的像素头小人，虽然只是“上上下下左右左右BABA”这般的简单按键，但依然被玩家们开发出了各种精彩纷呈阅读全文

posted @ 2022-12-01 15:12 OpenDILab 阅读(169) 评论(0) 推荐(0)

awesome-exploration-rl 前沿追踪——如何高效地探索未知的奥秘

摘要：引言探索和利用的平衡 (The banlance between exploration and exploitation) 是强化学习中最核心的问题之一。一般来说，利用指的是利用当前已知知识做出最优动作，探索指的是探索未知的环境以获取新的知识，从而潜在地可能得到回报更大的动作。探索与利用如何平阅读全文

posted @ 2022-08-25 12:05 OpenDILab 阅读(286) 评论(0) 推荐(0)

Decision Transformer 前沿追踪——万物皆可归于序列预测

摘要：引言如果想要将强化学习技术应用在某个决策领域，最重要的就是将原始问题转换为一个合理的 MDP （马尔科夫决策过程）问题，而一旦问题环境本身有一些不那么友好的”特性“（比如部分可观测，非平稳过程等等），常规强化学习方法的效果便可能大打折扣。另一方面，随着近些年来数据驱动范式的发展，大数据和预训练大模阅读全文

posted @ 2022-08-16 10:56 OpenDILab 阅读(796) 评论(0) 推荐(0)

决策智能在视频理解领域有什么应用？有什么强化学习的方法能提升视频的处理能力？

摘要：在当今信息大爆炸的时代，人们已越来越多地习惯用视频的形式传达信息，在Youtube上每分钟就有超过300小时的视频上传。而且在媒介形式中，视频相较于图片有着更大的使用场景和应用范围。自动识别这些海量视频中的人类行为、事件、紧急情况等内容，对于视频推荐、监控预警等实际应用具有重要意义。近年来，已有很多阅读全文

posted @ 2022-07-12 21:01 OpenDILab 阅读(257) 评论(0) 推荐(0)

解决这两个世界级难题，自动驾驶就能够实现超进化？

摘要：引言自动驾驶领域近几年来一直备受关注，但截止目前，自动驾驶在现实复杂场景下的大规模部署应用却一再延后。其中一个很重要的原因是，目前业界对于动态和强交互性场景下的行为、轨迹预测问题（behavior prediction）始终没有得出很好的解决方案。缺乏对其他道路参与者的行为理解与预测，自动驾驶车阅读全文

posted @ 2022-07-04 16:17 OpenDILab 阅读(585) 评论(0) 推荐(0)

星际争霸的虫王IA退役2年搞AI，自叹不如了

摘要：恢复内容开始金磊发自凹非寺量子位｜公众号 QbitA 这年头，直播讲AI，真算不上什么新鲜事。但要是连职业电竞选手，都开播主讲呢？没开玩笑，是真事。这位讲AI的主播，就是那个《星际争霸2》的虫王——IA。然后，他讲AI的画风是这样的：但有一说一，讲AI毕竟还是一件严谨的事儿。IA的这波阅读全文

posted @ 2022-06-27 10:43 OpenDILab 阅读(394) 评论(0) 推荐(0)

OpenDILab

随笔分类 - 决策智能

公告