2024 年 1月 25 日随笔档案 - xcyle

2024年1月25日

摘要：利用预训练好的模型进行微调（Fine-tune），可以获得比传统模型的巨大提升。此时学习率一般是正常的十分之一（\(10^{-5}\) 左右）。也可以保持预训练的参数不变。 Transformer 架构 Encoder-only：擅长分类任务 Decoder-only：擅长生成任务 Encoder 阅读全文

posted @ 2024-01-25 23:40 xcyle 阅读(111) 评论(1) 推荐(1) 编辑

xcyle

公告