会员
周边
新闻
博问
闪存
赞助商
YouClaw
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
最爱丁珰
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
···
134
下一页
2026年3月5日
AReal 简介
摘要: 先说一下AReal跟llamafactory和rllm的区别 llamafactory是LLM训练框架,不原生支持训练Agent,同时是先rollout再进行奖励计算,是一个同步的过程 rllm是Agent训练框架,不原生支持训练LLM,它更像是一个训练前端,会接入一个RL训练后端 AReal既可以
阅读全文
posted @ 2026-03-05 11:57 最爱丁珰
阅读(9)
评论(0)
推荐(0)
2026年2月20日
动态中位数
摘要: 一道非常类似的题目 Ans && Conclusion
阅读全文
posted @ 2026-02-20 19:40 最爱丁珰
阅读(10)
评论(0)
推荐(0)
序列
摘要: 只考虑两个序列这种操作就是我们平时说的将条件简化 然后像这种状态空间很大,但是求解答案只需要前若干个状态的题目,可以考虑用一个状态推导出下一个状态的做法。这道题目,“超级钢琴”以及“异或粽子”都可以这么做
阅读全文
posted @ 2026-02-20 17:16 最爱丁珰
阅读(8)
评论(0)
推荐(0)
2026年2月18日
进度一:调研
该文被密码保护。
阅读全文
posted @ 2026-02-18 15:52 最爱丁珰
阅读(2)
评论(0)
推荐(0)
2026年2月9日
腾讯cnb使用说明
摘要: 奇奇怪怪的看不懂,也没有仔细看 按照这篇文章将仓库克隆,然后在.cnb.yml中配置 $: vscode: - runner: cpus: 4 - docker: # 指定开发环境镜像,可以是任意可访问的镜像。 # 如果 image 指定的镜像中已安装 code-server 代码服务,将使用单容器
阅读全文
posted @ 2026-02-09 21:29 最爱丁珰
阅读(94)
评论(0)
推荐(0)
2026年2月5日
清华机试题目大概思路
摘要: 麻将猜猜猜:大模拟 军训队列 - 加强版:加强版是斜率优化,但是加强加强版不会 魔法学校:莫队+线段树,但是时间复杂度是\(O(n\sqrt{n}\log n)\),最大的测试点的时间是2.75ms 偏差:两个数组做差分,然后KMP匹配判断即可 鸽子窝: 设\(f_k(n)\)代表对应答案,根据题目
阅读全文
posted @ 2026-02-05 11:25 最爱丁珰
阅读(12)
评论(0)
推荐(0)
2026年1月30日
123
摘要: 2026 MCM Problem C: Data With The Stars Dancing with the Stars (DWTS) is the American version of an international television franchise based on the Br
阅读全文
posted @ 2026-01-30 21:34 最爱丁珰
阅读(85)
评论(0)
推荐(0)
2026年1月15日
123
该文被密码保护。
阅读全文
posted @ 2026-01-15 16:13 最爱丁珰
阅读(2)
评论(0)
推荐(0)
2026年1月14日
12.7.4 键值存储
摘要: https://aistudio.google.com/prompts/1dMqBhsgc3z_bzWBiLfCbA9TdQOXVXC61
阅读全文
posted @ 2026-01-14 09:53 最爱丁珰
阅读(12)
评论(0)
推荐(0)
12.7.2 环同步
摘要: 这张图解释的是深度学习分布式训练中非常经典且高效的通信算法——Ring All-Reduce(环形全归约)。 简单来说,它的目的是解决多张GPU如何最快地把各自计算出的梯度(Gradients)加在一起的问题。 以下是通俗易懂的详细解释: 1. 为什么要这么做?(背景) 在多显卡训练时,每张卡都会算
阅读全文
posted @ 2026-01-14 08:29 最爱丁珰
阅读(37)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
···
134
下一页
公告