上一页 1 2 3 4 5 6 ··· 134 下一页
摘要: 先说一下AReal跟llamafactory和rllm的区别 llamafactory是LLM训练框架,不原生支持训练Agent,同时是先rollout再进行奖励计算,是一个同步的过程 rllm是Agent训练框架,不原生支持训练LLM,它更像是一个训练前端,会接入一个RL训练后端 AReal既可以 阅读全文
posted @ 2026-03-05 11:57 最爱丁珰 阅读(9) 评论(0) 推荐(0)
摘要: 一道非常类似的题目 Ans && Conclusion 阅读全文
posted @ 2026-02-20 19:40 最爱丁珰 阅读(10) 评论(0) 推荐(0)
摘要: 只考虑两个序列这种操作就是我们平时说的将条件简化 然后像这种状态空间很大,但是求解答案只需要前若干个状态的题目,可以考虑用一个状态推导出下一个状态的做法。这道题目,“超级钢琴”以及“异或粽子”都可以这么做 阅读全文
posted @ 2026-02-20 17:16 最爱丁珰 阅读(8) 评论(0) 推荐(0)
该文被密码保护。 阅读全文
posted @ 2026-02-18 15:52 最爱丁珰 阅读(2) 评论(0) 推荐(0)
摘要: 奇奇怪怪的看不懂,也没有仔细看 按照这篇文章将仓库克隆,然后在.cnb.yml中配置 $: vscode: - runner: cpus: 4 - docker: # 指定开发环境镜像,可以是任意可访问的镜像。 # 如果 image 指定的镜像中已安装 code-server 代码服务,将使用单容器 阅读全文
posted @ 2026-02-09 21:29 最爱丁珰 阅读(94) 评论(0) 推荐(0)
摘要: 麻将猜猜猜:大模拟 军训队列 - 加强版:加强版是斜率优化,但是加强加强版不会 魔法学校:莫队+线段树,但是时间复杂度是\(O(n\sqrt{n}\log n)\),最大的测试点的时间是2.75ms 偏差:两个数组做差分,然后KMP匹配判断即可 鸽子窝: 设\(f_k(n)\)代表对应答案,根据题目 阅读全文
posted @ 2026-02-05 11:25 最爱丁珰 阅读(12) 评论(0) 推荐(0)
摘要: 2026 MCM Problem C: Data With The Stars Dancing with the Stars (DWTS) is the American version of an international television franchise based on the Br 阅读全文
posted @ 2026-01-30 21:34 最爱丁珰 阅读(85) 评论(0) 推荐(0)
该文被密码保护。 阅读全文
posted @ 2026-01-15 16:13 最爱丁珰 阅读(2) 评论(0) 推荐(0)
摘要: https://aistudio.google.com/prompts/1dMqBhsgc3z_bzWBiLfCbA9TdQOXVXC61 阅读全文
posted @ 2026-01-14 09:53 最爱丁珰 阅读(12) 评论(0) 推荐(0)
摘要: 这张图解释的是深度学习分布式训练中非常经典且高效的通信算法——Ring All-Reduce(环形全归约)。 简单来说,它的目的是解决多张GPU如何最快地把各自计算出的梯度(Gradients)加在一起的问题。 以下是通俗易懂的详细解释: 1. 为什么要这么做?(背景) 在多显卡训练时,每张卡都会算 阅读全文
posted @ 2026-01-14 08:29 最爱丁珰 阅读(37) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 ··· 134 下一页