02 2025 档案
摘要:virualenv创建虚拟环境:virtualenv myenv --python=/usr/bin/python3.11 grpo原理:https://huggingface.co/docs/trl/main/en/grpo_trainer (https://mp.weixin.qq.com/s?
阅读全文
摘要:Reward Hacking 模型通过利用奖励系统的设计缺陷或漏洞,采取非预期的行为来获取高额奖励,而不是真正实现设计者期望的目标 字节token https://mp.weixin.qq.com/s/lsCshrnmtO-bYaszLFBSNw DeepSeek训练图解:https://zhuan
阅读全文
积分与排名
- 积分 - 50214
- 排名 - 33700
随笔档案
- 2025年2月(2)
- 2025年1月(2)
- 2024年5月(3)
- 2024年3月(1)
- 2023年12月(3)
- 2023年10月(2)
- 2023年3月(1)
- 2023年1月(2)
- 2022年12月(2)
- 2022年11月(7)
- 2022年10月(3)
- 2022年9月(4)
- 2022年8月(1)
- 2022年7月(1)
- 2022年6月(2)
- 2022年5月(4)
- 2022年4月(3)
- 2022年3月(3)
- 2022年2月(3)
- 2022年1月(3)
- 2021年11月(1)
- 2021年9月(1)
- 2021年8月(4)
- 2021年7月(5)
- 2021年5月(9)
- 2021年4月(4)
- 2021年3月(2)
- 2021年1月(8)
- 2020年12月(6)
- 2020年11月(11)
- 2020年10月(5)
- 2020年9月(5)
- 2020年8月(1)
- 2020年7月(1)
- 2020年6月(2)
- 2020年4月(2)
- 2020年3月(2)
- 2020年1月(1)
- 2019年12月(4)
- 2019年11月(1)
- 更多
阅读排行榜
- 1. 浅析export * from 与 export {default} from用法(5900)
- 2. Vue项目使用svg图标(并使svg图标如icon一样可修改font-size、color)(3626)
- 3. npm 更改模块版本(2325)
- 4. react渲染数据3种方式(2115)
- 5. 在VMware虚拟机Ubuntu使用traceroute(1905)
- 6. Conv2d参数详解及复写(1877)
- 7. pycharm远程调试、开发(详细操作)(1817)
- 8. Object.defineProperty 详解(数据响应式原理) (1588)
- 9. promises-aplus-tests 测试手写promise过程(1461)
- 10. antd Paragraph展开可收起组件封装(1377)