GPT调研

https://openai.com/product

https://github.com/openai/openai-cookbook openapi使用示例

https://docs.midjourney.com/docs/quick-start 根据英文图片生成

gpt不知道2022年后的事情

gpt生成的时候不联网，给的链接是生成出来的，不是真实的ref

核心模型有以下几类，其他也有针对图形和语音的

chat-gpt，基于gpt3.5-turbo

指令GPT，从简单到复杂的，最强的是davinci，这些都是基础模型

Fine-tuning模型，是需要基于基础模型进行的，

注意Fine-tuning本身是要收费的，不便宜，并且fine-tuing后的模型使用的费用要远远高于基础模型

Embedding只用到最简单的模型Ada

Fine-tuning

https://zhuanlan.zhihu.com/p/619581581

这篇讲的挺清楚的，总体就是基础模型无法针对特定的领域，需要基于基础模型去fine-tuning

Fine-tuning一般包括以下步骤：

加载预训练模型：选择一个与所需任务相关的预训练模型，并加载其权重。
选择任务数据集：选定特定任务所需的数据集。
对模型进行微调：将任务数据集作为输入，以最小化模型在此数据集上的损失函数。在这个过程中，通常需要在训练集和验证集上进行多次迭代，以避免过拟合问题。
在测试集上进行测试：使用微调后的模型，在测试集上测试其性能表现。

Embedding

https://zhuanlan.zhihu.com/p/619233637

https://github.com/imClumsyPanda/langchain-ChatGLM/blob/master/img/langchain+chatglm.png

Embedding的使用流程

GPT论文

https://zhuanlan.zhihu.com/p/614957283

https://zhuanlan.zhihu.com/p/508053361

https://zhuanlan.zhihu.com/p/511263118

https://zhuanlan.zhihu.com/p/343922021

https://zhuanlan.zhihu.com/p/343925685

首先结论，GPT1,2,3，最核心的差异在，网络规模和资料集的规模

GPT1论文，提出Pre-train加Finetune的架构，和后续提出的BERT思路一致，并且在这个时候，BERT（3亿）的性能是要好于GPT（1亿）的；所以GPT1其实不能算典型的GPT

GPT2论文，提出通用模型的概念，真正的区别于BERT，去掉FInetune部分，单纯的用一个超大语言模型，最大堆叠48层的transform decoder，15亿参数，去解决各种downstream任务。这个是个很大的突破，之前的模型一定要对于每个不同的downstream任务先进行Finetune的，而GPT之所以产生这么大的影响，就在于他的泛化能力。

GPT3论文，主要研究in-context learning带来的效果，这种方法只需要少量的100以内的训练集，而且不需要更新模型参数

可以看出在超大规模的语言模型下，in-context learning取得不错的效果

上文的引用中，这3段比较清晰的给出大模型的架构的同异

posted on 2023-04-26 14:56 fxjwind 阅读(158) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

fxjwind

GPT调研

导航

公告