大模型-sharegpt格式数据说明
格式
[
{
"conversations": [
{
"from": "human",
"value": "user instruction"
},
{
"from": "gpt",
"value": "model response"
},
...
],
"system": "system prompt (optional)",
"tools": "tool description (optional)"
}
]
- conversations: 包含一系列对话对象,每个对象都由发言者(from)和发言内容(value)组成。from可以是人类、机器或是外部请求等,都可以自定义。
- system: 可选,系统提示或者说是prompt、角色设定等。类似于alpaca格式中的system字段。
- tools: 描述功能信息(尤其是外部请求的描述),这些工具可能被模型用来执行某些任务或获取更多信息。
例子
[
{
"conversations": [
# 提问
{
"from": "human",
"value": "我想知道明天济南的天气预报。"
},
{
"from": "function_call",
"value": "{\"name\": \"get_weather_forecast\", \"arguments\": {\"location\": \"济南\", \"date\": \"明天\"}}"
},
# 回答
{
"from": "observation",
"value": "{\"temperature_high\": 25, \"temperature_low\": 18, \"condition\": \"多云\", \"humidity\": 60}"
},
{
"from": "gpt",
"value": "明天济南的天气预报显示是多云,最高温度约为25摄氏度,最低温度约为18摄氏度,湿度为60%。"
},
...
],
"system": "你是一位智能助手,能够帮助用户查询各种信息。",
"tools": "["
"{\"name\": \"get_weather_forecast\", "
"\"description\": \"获取指定地点的天气预报\", "
"\"parameters\": "
" {\"type\": \"object\","
" \"properties\": "
" {\"location\": {\"type\": \"string\", \"description\": \"要查询天气的地点\"}, "
" \"date\": {\"type\": \"string\", \"description\": \"查询的日期(例如:'明天', '后天')\"}"
" }, "
" \"required\": "
" [\"location\", \"date\"]"
" }"
"}"
"]"
}
]
在sharegpt格式的数据集中,function_call字段用于表示模型调用外部函数或工具的行为。这种机制允许模型与外部服务交互,以获取额外的信息或执行特定任务。这在许多实际应用中非常有用,比如查询天气、检索数据库等
参考
本文来自博客园,作者:漫漫长夜何时休,转载请注明原文链接:https://www.cnblogs.com/ag-chen/p/18430888