ChatGpt系列一:模型介绍
GPT4\GPT-3.5
多模态模型,就是自然语言处理模型,可以理解文本,而且很像人,不是常见的指令型的假模型,是有人味的一个模型,主要接收文本输入并输出文本
获得更好结果6项策略
写下清晰的说明
策略:
- 要求模特采用角色(系统消息可用于指定模型在其回复中使用的角色,在我们落地应用时这个是必备的,将角色设置为我们自己的项目名称)
- 使用分隔符清楚的指示输入的不同部分
- 指定完成任务的步骤
- 提供例子(比如做智能客服时,每次回答都尽量统一回复风格,可以提供示例实现)
- 指定所需的输出长度
提供参考文字
策略
-
指示模型使用参考文本回答
-
指示模型通过引用参考文本来回答
将复杂的任务拆分为更简单的子任务
策略
- 使用意图分类来识别与用户查询最相关的指令
- 对于需要很长对话的对话应用,总结或过滤以前的对话
- 分段总结长文档并递归构建完整摘要
给GPT时间思考
策略
-
指示模型在急于得出结论之前找出自己的解决方案
-
使用内心独白或一系列查询来隐藏模型的推理过程
-
询问模型在之前的过程中是否遗漏了任何内容
使用外部工具
通过向GPT提供其他工具的输出来弥补GPT的弱点
策略
-
使用基于Embeddings的搜索实现高效的知识检索(基于本地数据搜索的功能都可以利用Embeddings来实现,比如快速搭建起智能帮助中心、客服系统、问诊系统、保险推荐等)
-
使用代码执行来执行更准确的计算或调用外部API
例如:可以给gpt上下文中提供外部调用的接口或者逻辑代码来快速得到答案,这个用来融合自己的业务非常有效
-
授予模型访问特定功能的权限
系统的测试变更
需要有方法测试一个优化是否对系统是正向的改进,好的评估方法:
- 代表现实世界的使用情况
- 指定测试用例
- 易于自动化或重复
策略:参考黄金标准答案评估模型输出
假设已知问题的正确答案应参考一组特定的已知事实。然后我们可以使用模型查询来计算答案中包含多少必需的事实。
*以上的策略都只是使用技巧,可以根据需要揉和使用
DALL.E/DALL.E2
根据自然语言描述创建图像。最直接的落地场景:
- 推广海报生成系统(干掉UI,相当于为每一个业务员配置了1v1的UI设计人员,提高业务员转化率)
Images API 提供了三种与图像交互的方法:
- 根据文本提示从头开始创建图像
- 根据新的文本提示对现有图像进行编辑
- 创建现有图像的变体
Whisper
语音识别模型,可以应用于:
- 将音频转录成音频所使用的任何语言;
- 将音频翻译并转录成英语;
文件上传当前限制为 25 MB,并且支持以下输入文件类型:mp3
、mp4
、mpeg
、mpga
、m4a
、wav
和webm
。
常见的应用场景:
- 自动生成会议纪要(线上会议应用场景)
- 文本小说转化为语音读本(喜马拉雅类型)
- 抖音批量制造讲故事类型素材
且可以通过GPT4的指定system_prompt,定义我们的公司和产品名称
Embeddings
Embedding 通常用于以下场景:
- 搜索(结果按查询字符串的相关性进行排序)
- 聚类(将文本字符串按相似性分组)
- 推荐(推荐具有相关文本字符串的项目)
- 异常检测(识别相关性较小的异常值)
- 多样性测量(分析相似度分布)
- 分类(文本字符串按其最相似的标签进行分类)
简单点说就是Embeddings可以将提供的数据转化为向量数据,然后应用于以上场景。
这个最直观的应用场景就是智能客服、智能推荐,应该是落地中比较容易实现可以很快立竿见影的场景。结合qdrant数据库(或者万金油Redis也可以),可以将本地数据通过Embeddings转化后存入qdrant实现本地搜索。
或者做用户画像,将用户数据通过Embeddings转化后,可以很容易的实现给用户自动打标签,一个人工智能版本的用户标签系统就完成了。继而赋能给其他系统(CRM、推荐系统等)。
同理可得,智能推荐系统通过Embeddings也能非常快速的实现。只需要调整参数,或者增加一些额外的代码逻辑,一个符合公司业务的智能系统就完成了。
矢量数据库选项包括:
- Chroma,一个开源嵌入商店
- Milvus,一个为可扩展的相似性搜索而构建的矢量数据库
- Pinecone,一个完全托管的矢量数据库
- Qdrant,矢量搜索引擎
- Redis作为向量数据库(存储量小,一般情况不采用)
- Typesense,快速开源矢量搜索
- Weaviate,一个开源矢量搜索引擎
- Zilliz,数据基础设施,由 Milvus 提供支持
Moderation(免费)
这个是我们最熟悉的了,审核模型,以后yyds这种拼音缩写的词也无处遁型了,真是yyds