2025 年 1月随笔档案 - 霜尘FrostDust

【论文阅读】GROOT：Learning to Follow Instructions by Watching Gameplay Viedos

摘要：GROOT：Learning to Follow Instructions by Watching Gameplay Viedos.作者为北京大学梁一韬所在的Team CraftJarvis,发表时间为2023 Background 在开放世界下开发类人级别的具身智能体以解决开放式任务一直是人工智能阅读全文

posted @ 2025-01-17 11:15 霜尘FrostDust 阅读(48) 评论(0) 推荐(0)

【论文阅读】Transformer-XL

摘要：Transformer-xl: Attentive language models beyond a fixed-length context.ACL 2019 其是对Transformer架构的改造。 Transformer-XL 使学习依赖性超过固定长度而不破坏时间连贯性(450% longer 阅读全文

posted @ 2025-01-17 10:43 霜尘FrostDust 阅读(75) 评论(0) 推荐(0)

KL散度计算

摘要：KL散度(Kullback-Leibler Divergence)是用来度量两个概率分布相似度的指标，是经典损失函数，应用于PPO等算法参数估计设计。 KL散度的定义假设对随机变量\(\xi\)，存在两个概率分布P和Q。如果\(\xi\)为离散变量，则定义从P到Q的KL散度为： \[D_{KL}( 阅读全文

posted @ 2025-01-15 21:56 霜尘FrostDust 阅读(680) 评论(0) 推荐(0)

第三届智能决策论坛|决策大模型专题报告——随笔(1)

摘要：前言这次汇报的有四位老师，其中我比较感兴趣的是上海交通大学张伟楠老师、北京大学梁一韬老师和清华大学高宸老师的报告，其中张老师之前已经记录过，本文主要作为对梁一韬老师的分享的记录与思考。 CRAFT JARVIS: Towards Generalist Agents in an Open World 阅读全文

posted @ 2025-01-10 21:01 霜尘FrostDust 阅读(180) 评论(0) 推荐(0)

test

摘要：试试效果阅读全文

posted @ 2025-01-10 18:57 霜尘FrostDust 阅读(26) 评论(0) 推荐(0)

FrostDust

01 2025 档案

公告