大模型-alpaca格式数据说明

格式

alpaca 格式的数据集应遵循以下格式:

[
 {
   "instruction": "user instruction (required)",
   "input": "user input (optional)",
   "output": "model response (required)",
   "system": "system prompt (optional)",
   "history": [
     ["user instruction in the first round (optional)", "model response in the first round (optional)"],
     ["user instruction in the second round (optional)", "model response in the second round (optional)"]
   ]
 },
 ...
]

字段作用

  • instruction: 必须提供,用户的指令或问题。
  • input: 可选,提供上下文信息。
  • output: 必须提供,模型对instruction的输出。
  • system: 可选,系统提示或者说是prompt、角色设定等。
  • history: 必须提供,一个列表,表示历史对话,为空则表示这是新的对话。只需要提供instruction和output即可。

例子

[
  {
    "instruction": "从以下文本中提取发生的事件类型、地点和时间。",
    "input": "昨天,在加州的一家购物中心发生了一起火灾事故,幸好没有人员伤亡。",
    "output": "事件类型: 火灾; 地点: 加州; 时间: 昨天",
    "system": "你是一位信息分析师,擅长从文本中提取关键信息。",
    "history": []
  },
  {
    "instruction": "从以下文本中提取发生的事件类型、地点和时间。",
    "input": "本周三,加州市中心的一座办公楼发生了爆炸,造成多人受伤。",
    "output": "事件类型: 爆炸; 地点: 加州市中心; 时间: 本周三",
    "system": "你是一位信息分析师,擅长从文本中提取关键信息。",
    "history": [
    	["从以下文本中提取发生的事件类型、地点和时间。", "事件类型: 火灾; 地点: 加州; 时间: 昨天"]
    ]
  },
  {
    "instruction": "从以下文本中提取发生的事件类型、地点和时间。",
    "input": "上个月底,加州的一个工业园区内发生化学品泄漏,导致附近居民紧急疏散。",
    "output": "事件类型: 化学品泄漏; 地点: 加州的一个工业园区; 时间: 上个月底",
    "system": "你是一位信息分析师,擅长从文本中提取关键信息。",
    "history": [
    	["从以下文本中提取发生的事件类型、地点和时间。", "事件类型: 火灾; 地点: 加州; 时间: 昨天"],
    	["从以下文本中提取发生的事件类型、地点和时间。", "事件类型: 化学品泄漏; 地点: 加州的一个工业园区; 时间: 上个月底"]
    ]
  }
]

参考

Qwen官方文档

CSDN博客

posted @ 2024-09-25 10:18  漫漫长夜何时休  阅读(527)  评论(0编辑  收藏  举报