随笔档案「2023年6月11日」：强化学习及过程监督学习笔记 ... - AlphaInf

2023年6月11日

摘要：写在前面笔者将在这篇文章中，写下有关过程监督，反馈对齐，奖励模型，和数据构造相关的论文的笔记。论文主要来自Openai的论文。问题坑奖励模型是如何输出精确的标记的？在解决方案的每个标记后做出标量预测（具体细节？）。预训练是怎么把知识注入进模型的，然后如何激活出这些知识论文挖坑列表基于过阅读全文

posted @ 2023-06-11 23:31 AlphaInf 阅读(769) 评论(0) 推荐(12)

基于80C51单片机的出租车计费器设计

摘要：写在前面本文将详细讲解如何在Proteus中，使用80C51单片机，编写汇编程序，实现出租车计费器，实现实时速度显示，行使里程统计及费用统计，以及自动的清零。该题包含两个输入和三个输出，其中一个输入是车轮转动的更新信号，每更新一次代表车轮转了一圈，另一个输入信号是费用计费/清零输入按钮。而输出是阅读全文

posted @ 2023-06-11 12:31 AlphaInf 阅读(648) 评论(1) 推荐(16)

$\mathit{AlphaINF}$

跑得快，不一定赢；稳如老狗，才能长久。

公告