随笔分类 - Chatbot Implementation
From COMP9900, UNSW
摘要:long context: context length 128k, more accurate over a long context control JSON Mode Function calling, call many functions at once Reproducible outp
阅读全文
摘要:对齐与能力 能力(Capability):模型完成一些特定任务的能力。 未对齐(misalignment):模型在训练集上表现很好,但在测试集上表现很差。说明模型有能力学习,但训练设定的目标不对^1。 类似初版的GPT-3这类大模型,已经在大量的数据上训练过,也能够生成人类语言,但无法生成人类期望的
阅读全文
摘要:GPT系列模型的历史 GPT-1 Paper 关键研究成果 将transformer架构与无监督的预训练结合,相较于之前的语言模型将有非常大的提升; 基于预训练之后的模型针对一个小任务进行微调(fine-tune),将凸显出比较强的自然语言理解能力; GPT-2 Paper 关键研究成果 新增多任务
阅读全文