会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Loading
Burglar
博客园
首页
新随笔
联系
订阅
管理
1
2
3
4
5
下一页
2025年3月28日
DPO介绍+公式推理
摘要:
1. 什么是DPO? DPO(Direct Preference Optimization)是一种用于对齐大语言模型(LLMs)的新型方法,旨在高效地将人类偏好融入模型训练中。它提供了一种替代强化学习(如 RLHF, Reinforcement Learning with Human Feedbac
阅读全文
posted @ 2025-03-28 22:26 [X_O]
阅读(375)
评论(1)
推荐(1)
2025年2月20日
GRPO详解
摘要:
GRPO详解 GRPO算法是在PPO算法的基础上进化而来的,在搞清楚GRPO算法前,需要先了解PPO算法是如何在LLM的Post Training中应用的。 本文主要参考DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Ope
阅读全文
posted @ 2025-02-20 12:50 [X_O]
阅读(533)
评论(0)
推荐(0)
2024年12月2日
强化学习的几个主要方法(策略梯度、PPO、REINFORCE实现等)
摘要:
本笔记有大量参考蘑菇书EasyRL https://datawhalechina.github.io/easy-rl/#/ 包括其配图和部分文本。 1. 基本概念 1.1 基本流程 强化学习是一种学习框架,其中智能体(Agent) 通过与 环境(Environment) 的交互,在每一步从环境中接收
阅读全文
posted @ 2024-12-02 21:16 [X_O]
阅读(3111)
评论(0)
推荐(0)
2024年7月2日
对Transformer的一些理解
摘要:
在学习Transformer这个模型前对seq2seq架构有个了解时很有必要的 先上图 输入和输出 首先理解模型时第一眼应该理解输入和输出最开始我就非常纠结 有一个Inputs,一个Outputs(shift right)和一个Output Probabilities,首先需要借助这三个输入/输出来
阅读全文
posted @ 2024-07-02 15:30 [X_O]
阅读(726)
评论(1)
推荐(3)
2024年5月25日
基于附带Attention机制的seq2seq模型架构实现英译法的案例
摘要:
模型架构 先上图 我们这里选用GRU来实现该任务,因此上图的十个方框框都是GRU块,如第二张图,放第一张图主要是强调编码器的输出是作用在解码器每一次输入的观点,具体的详细流程图将在代码实现部分给出。 编码阶段 1. 准备工作 要用到的数据集点此下载,备用地址,点击下载 导入相关的库和编写字符处理的函
阅读全文
posted @ 2024-05-25 18:21 [X_O]
阅读(198)
评论(0)
推荐(0)
2024年5月22日
提示工程概要
摘要: 提示工程 1. 两大原则 原则 1:编写清晰具体的说明 使用分隔符 三引号:""" 三个反引号:``` 三个破折号: 尖括号:<> XML标签: 要求结构化输出 HTML JSON XML Python字典 检查条件是否满足 检查执行任务所需的假设 少量样本提示 先给出完成任务的成功示例 如何再让模
阅读全文
posted @ 2024-05-22 21:10 [X_O]
阅读(20)
评论(0)
推荐(0)
传统RNN网络及其案例--人名分类
摘要:
传统RNN网络及其案例--人名分类 传统的RNN模型简介 RNN 先上图 这图看起来莫名其妙,想拿着跟CNN对比着学第一眼看上去有点摸不着头脑,其实我们可以把每一个时刻的图展开来,如下 其中,为了简化计算,我们默认每一个隐层参数相同,这样看来RNN的结构就比较简单了,相比较CNN来说,RNN引入了更
阅读全文
posted @ 2024-05-22 20:48 [X_O]
阅读(138)
评论(0)
推荐(0)
2022年9月5日
解决python命令行报错问题
摘要: 解决Python报错Failed calling sys.__interactivehook__ 报错截图 可以看到主要的报错信息 File "D:\Python\Anaconda3\lib\site-packages\pyreadline\lineeditor\history.py", line
阅读全文
posted @ 2022-09-05 12:29 [X_O]
阅读(133)
评论(0)
推荐(0)
2022年8月12日
免费的云产品
摘要: 免费的云产品 云数据库 地址:https://planetscale.com/ 使用:直接无脑操作,值得注意的是在选择CLI直接通过命令行来连接数据库时 mysql -h lqu8oy8shq8c.us-east-3.psdb.cloud -u 7f2u85345msy -p************
阅读全文
posted @ 2022-08-12 11:54 [X_O]
阅读(178)
评论(2)
推荐(0)
为给git设置代理
摘要: 为给git设置代理 通过软件形式为git设置代理 命令(端口改为自己的端口): git config --global https.proxy http://127.0.0.1:1083 git config --global https.proxy https://127.0.0.1:1083 当
阅读全文
posted @ 2022-08-12 11:07 [X_O]
阅读(58)
评论(0)
推荐(0)
1
2
3
4
5
下一页
公告