大模型-sharegpt格式数据说明

格式

[
  {
    "conversations": [
      {
        "from": "human",
        "value": "user instruction"
      },
      {
        "from": "gpt",
        "value": "model response"
      }, 
      ...
    ],
    "system": "system prompt (optional)",
    "tools": "tool description (optional)"
  }
]
  • conversations: 包含一系列对话对象,每个对象都由发言者(from)和发言内容(value)组成。from可以是人类、机器或是外部请求等,都可以自定义。
  • system: 可选,系统提示或者说是prompt、角色设定等。类似于alpaca格式中的system字段。
  • tools: 描述功能信息(尤其是外部请求的描述),这些工具可能被模型用来执行某些任务或获取更多信息。

例子

[
  {
    "conversations": [
      # 提问
      {
        "from": "human",
        "value": "我想知道明天济南的天气预报。"
      },
      {
        "from": "function_call",
        "value": "{\"name\": \"get_weather_forecast\", \"arguments\": {\"location\": \"济南\", \"date\": \"明天\"}}"
      },
      # 回答
      {
        "from": "observation",
        "value": "{\"temperature_high\": 25, \"temperature_low\": 18, \"condition\": \"多云\", \"humidity\": 60}"
      },
      {
        "from": "gpt",
        "value": "明天济南的天气预报显示是多云,最高温度约为25摄氏度,最低温度约为18摄氏度,湿度为60%。"
      }, 
      ...
    ],
    "system": "你是一位智能助手,能够帮助用户查询各种信息。",
    "tools": "["
    "{\"name\": \"get_weather_forecast\", "
    "\"description\": \"获取指定地点的天气预报\", "
    "\"parameters\": "
    "	{\"type\": \"object\","
    "	 \"properties\": "
    "		{\"location\": {\"type\": \"string\", \"description\": \"要查询天气的地点\"}, "
    "		 \"date\": {\"type\": \"string\", \"description\": \"查询的日期(例如:'明天', '后天')\"}"
    "		}, "
    "	 \"required\": "
    "		[\"location\", \"date\"]"
    "	}"
    "}"
    "]"
  }
]

在sharegpt格式的数据集中,function_call字段用于表示模型调用外部函数或工具的行为。这种机制允许模型与外部服务交互,以获取额外的信息或执行特定任务。这在许多实际应用中非常有用,比如查询天气、检索数据库等

参考

Qwen官方文档

CSDN

posted @ 2024-09-25 10:58  漫漫长夜何时休  阅读(444)  评论(0编辑  收藏  举报