GPT调研

https://openai.com/product

https://github.com/openai/openai-cookbook  openapi使用示例

https://docs.midjourney.com/docs/quick-start   根据英文图片生成

 

gpt不知道2022年后的事情

gpt生成的时候不联网,给的链接是生成出来的,不是真实的ref

核心模型有以下几类,其他也有针对图形和语音的

chat-gpt,基于gpt3.5-turbo

指令GPT,从简单到复杂的,最强的是davinci,这些都是基础模型

 Fine-tuning模型,是需要基于基础模型进行的,

注意Fine-tuning本身是要收费的,不便宜,并且fine-tuing后的模型使用的费用要远远高于基础模型

Embedding只用到最简单的模型Ada

 

 

Fine-tuning

https://zhuanlan.zhihu.com/p/619581581

这篇讲的挺清楚的,总体就是基础模型无法针对特定的领域,需要基于基础模型去fine-tuning

Fine-tuning一般包括以下步骤:

  1. 加载预训练模型:选择一个与所需任务相关的预训练模型,并加载其权重。
  2. 选择任务数据集:选定特定任务所需的数据集。
  3. 对模型进行微调:将任务数据集作为输入,以最小化模型在此数据集上的损失函数。在这个过程中,通常需要在训练集和验证集上进行多次迭代,以避免过拟合问题。
  4. 在测试集上进行测试:使用微调后的模型,在测试集上测试其性能表现。

 

Embedding

https://zhuanlan.zhihu.com/p/619233637

https://github.com/imClumsyPanda/langchain-ChatGLM/blob/master/img/langchain+chatglm.png

Embedding的使用流程

 

GPT论文

https://zhuanlan.zhihu.com/p/614957283

https://zhuanlan.zhihu.com/p/508053361

https://zhuanlan.zhihu.com/p/511263118

https://zhuanlan.zhihu.com/p/343922021

https://zhuanlan.zhihu.com/p/343925685

首先结论,GPT1,2,3,最核心的差异在,网络规模和资料集的规模

GPT1论文,提出Pre-train加Finetune的架构,和后续提出的BERT思路一致,并且在这个时候,BERT(3亿)的性能是要好于GPT(1亿)的;所以GPT1其实不能算典型的GPT

GPT2论文,提出通用模型的概念,真正的区别于BERT,去掉FInetune部分,单纯的用一个超大语言模型,最大堆叠48层的transform decoder,15亿参数,去解决各种downstream任务。这个是个很大的突破,之前的模型一定要对于每个不同的downstream任务先进行Finetune的,而GPT之所以产生这么大的影响,就在于他的泛化能力。

GPT3论文,主要研究in-context learning带来的效果,这种方法只需要少量的100以内的训练集,而且不需要更新模型参数

可以看出在超大规模的语言模型下,in-context learning取得不错的效果

 

上文的引用中,这3段比较清晰的给出大模型的架构的同异

 

posted on 2023-04-26 14:56  fxjwind  阅读(158)  评论(0编辑  收藏  举报