07 2023 档案

摘要:# GLoRA:One-for-All: Generalized LoRA for Parameter-Efficient Fine-tuning ## O、Abstract 本文在 LoRA 的基础上,提出一种广义 LoRA (GLoRA,Generalized LoRA)。与 LoRA 相比,G 阅读全文
posted @ 2023-07-20 22:52 tsyhahaha 阅读(232) 评论(0) 推荐(0) 编辑
摘要:# 自注意力机制 ## O、前置知识——单词向量编码 在文字处理中,我们对单词进行向量编码通常有两种方式: 1. 独热编码(one-hot encoding):用N位的寄存器对N个状态编码,通俗来讲就是开一个很长很长的向量,向量的长度和世界上存在的词语的数量是一样多的,每一项都表示一个词语,只要把其 阅读全文
posted @ 2023-07-18 16:13 tsyhahaha 阅读(318) 评论(0) 推荐(0) 编辑
摘要:# LoRA:Low-Rank Adaptation Of Language Model ## O、摘要 本文提出一种新的大模型(本文主要指 transformer)微调方法:低秩自适应。其主要特性为,冻结预训练模型的权重,并将可训练低秩矩阵,分解到模型的每一层,从而大大减少下游任务的训练参数量。与 阅读全文
posted @ 2023-07-16 21:03 tsyhahaha 阅读(259) 评论(0) 推荐(0) 编辑
摘要:强化学习Chapter3——贝尔曼方程 上一节介绍了衡量回报 R 的相关函数,包括状态价值函数与动作价值函数,并且介绍了二者之间的等式关系 \[V^\pi(s)=E_{a\sim\pi}[Q^\pi(s,a)]=\sum_{a}\pi(a|s)Q^\pi(s,a)\\ Q^\pi(s,a)= 阅读全文
posted @ 2023-07-13 16:57 tsyhahaha 阅读(1120) 评论(0) 推荐(0) 编辑
摘要:强化学习Chapter2——优化目标(2) 上文推导出强化学习的一般性目标,即不做确定性假设下的优化目标,得到了下面两个式子: \[P(\tau|\pi)=\rho_0(s_0)\prod^{T-1}_{t=0} P(s_{t+1}|s_t,a_t)\pi(a_t|s_t)\\ J(\pi)=\in 阅读全文
posted @ 2023-07-13 16:03 tsyhahaha 阅读(184) 评论(0) 推荐(0) 编辑
摘要:强化学习Chapter2——优化目标(1) 上节涉及强化学习基本思路以及利用数学方式表征强化学习,但对强化学习的目标并没有进行详尽的定义,而仅用回报的定义一笔带过。本节的目标旨在不涉及算法地详述强化学习的目标。 强化学习一般性目标 上文提到,强化学习的目标可以解释为:在一个 Trajectories 阅读全文
posted @ 2023-07-13 10:24 tsyhahaha 阅读(243) 评论(0) 推荐(0) 编辑
摘要:# 2023年7月 > * 07.12 > * 发布了强化学习系列文章《强化学习Chpter1——基本认知》 > * 调整了正文字体 > * 07.13 > * 发布了强化学习系列文章《强化学习Chpter2——优化目标(1)》 > * 发布了强化学习系列文章《强化学习Chpter2——优化目标(2 阅读全文
posted @ 2023-07-12 14:55 tsyhahaha 阅读(4) 评论(0) 推荐(0) 编辑
摘要:强化学习Chapter1——基本认识 一句话概括强化学习(RL,reinforce learning):强化学习是通过对某个主体的行为来进行奖励或者惩罚,从而使其在未来更可能重复或者放弃某个行为。(倒有点“培养小学生养成良好的学习习惯”那味了......) 从基本概念谈起 1、框架表征:State, 阅读全文
posted @ 2023-07-12 13:44 tsyhahaha 阅读(165) 评论(2) 推荐(0) 编辑
摘要:欢迎来到我的友链小屋 展示本站所有友情站点,排列不分先后,均匀打乱算法随机渲染的喔! 友链信息 博客名称:tsyhahaha博客网址:https://www.cnblogs.com/tsyhahaha/博客头像:https://pic.cnblogs.com/avatar/1273193/20190 阅读全文
posted @ 2023-07-07 14:39 tsyhahaha 阅读(10) 评论(0) 推荐(0) 编辑

阅读目录(Content)

此页目录为空

点击右上角即可分享
微信分享提示