摘要:
RWKV 原理笔记(一) [双字] 在{Transformer}时代, {RWKV}是RNN的[文艺复兴]--论文详解 - P1 - 编程语言观察 - BV11N411C76z Hello today we're going to look at RWKV, which in its own wor 阅读全文
摘要:
RWKV 原理笔记(二) 你必须拥有RWKV,以及其他模型为何拉胯,NLP杂谈 - P1 - taku的交错电台 - BV12h4y1u7uN hello,大家好,我是海边的泰国。今天让我们来讲一下这个大型语言模型RWKV。这个模型好像发最早发布是在差不多两个月之前吧,就是它架构发布,要发论文,好像 阅读全文
摘要:
斯坦福 CS25 Transformer 原理笔记(一) P1:1. 改变 NLP、CV、RL 的 DL 模型 - life_code - BV1X84y1Q7wV 大家好,欢迎来到 CS25《变压器联合》的第一节入门讲座。CS25 是我们三个人在 2021 年秋季于斯坦福大学创办并教授的一门课程, 阅读全文
摘要:
斯坦福 CS25 Transformer 原理笔记(二) P4:4.决策变换器 通过序列建模进行强化学习 - life_code - BV1X84y1Q7wV 我很高兴今天能谈论我们最近关于使用变换器进行强化学习的工作,这项工作是与一群非常优秀的合作者共同完成的,他们大多在加州大学伯克利分校,有一些 阅读全文