chatGPT发展中Few-Shot, Zero-Shot & One-shot 的通俗理解

先解释 one-shot。公司门禁用了人脸识别，你只提供一张照片，门禁就能认识各个角度的你，这就是 one-shot。可以把 one-shot 理解为用 1 条数据 finetune 模型。在人脸识别场景里，one-shot 很常见。

zero-shot 与 few-shot，回到 NLP 场景。用 wikipedia、新闻等，训练一个 GPT 模型，直接拿来做对话任务，这个就是 zero-shot。然后，发现胡说八道有点多，找了一些人标注了少量优质数据喂进去，这就是 few-shot。

chatGPT 的发展史，就是从 zero-shot 到 few-shot。（摘自沐神的 paper reading 系列）

背景。GPT-3 之前，跟 Bert 是两条路线的竞争关系。
GPT-2 是 zero-shot。效果没有超过 bert，又想发 paper，就把自己的卖点定义为 zero-shot（方法创新），即完全的无监督学习，论文的题目：Language Models are Unsupervised Multitask Learners。
GPT-3 是 few-shot。效果比 bert 好，不用找学术方法的卖点了，而且，zero-shot 做产品的性价比确实不高，换成了 few-shot，也就是找了一些人做标注。论文的题目：Language Models are Few-Shot Learners。
chatGPT 是 HFRL。GPT-3 之后的问题是：few-shot 时到底 shot 啥（标注哪些数据）？他们跟强化学习结合起来，也就是 human feedback reenforcement learning，俗称 HFRL。也就是 chatGPT 的核心技术。

HRFL 这套方法，本质目的是：如何把机器的知识与人的知识对齐。然后开创了一个新的方向，叫 alignment。openAI 在内的好多大佬，都在追这个新方向。
注：这里的 alignment，与人脸识别里的 alignment，完全不一样。

参考链接：https://zhuanlan.zhihu.com/p/624793654

posted @ 2023-10-23 19:43 时光如你般美好阅读(940) 评论(0) 收藏举报

刷新页面返回顶部

《》

chatGPT发展中Few-Shot, Zero-Shot & One-shot 的通俗理解

公告