我们如何确保人工智能系统比人类聪明得多并遵循人类意图?
目前,我们还没有一个解决方案来引导或控制潜在的超级人工智能,并防止其失控。我们当前调整人工智能的技术,例如根据人类反馈进行强化学习,依赖于人类监督人工智能的能力。但人类无法可靠地监督比我们聪明得多的人工智能系统,乙[乙]
其他假设在未来也可能被打破,比如部署期间有利的泛化属性,或者我们的模型在训练期间无法成功检测和破坏监督。
因此我们目前的对齐技术无法扩展到超级智能。我们需要新的科学技术突破。
我们的方法
我们的目标是建立一个大致达到人类水平的自动对齐研究人员。然后,我们可以使用大量计算来扩展我们的工作,并迭代地调整超级智能。
为了对齐第一个自动对齐研究人员,我们需要 1) 开发可扩展的训练方法,2) 验证生成的模型,3) 对整个对齐管道进行压力测试:
- 为了针对人类难以评估的任务提供训练信号,我们可以利用人工智能系统来协助评估其他人工智能系统 (可扩展的监督)。此外,我们希望了解和控制我们的模型如何将我们的监督推广到我们无法监督的任务(泛化)。
- 为了验证我们系统的一致性,我们自动搜索有问题的行为 (稳健性)和有问题的内部结构(自动可解释性)。
- 最后,我们可以通过故意训练未对齐的模型来测试我们的整个流程,并确认我们的技术检测到最严重的未对齐类型(对抗性测试)。
我们预计,随着我们对这个问题的了解越来越多,我们的研究重点将会发生重大变化,并且我们可能会增加全新的研究领域。我们计划在未来分享更多有关我们的路线图的信息。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 25岁的心里话
· 闲置电脑爆改个人服务器(超详细) #公网映射 #Vmware虚拟网络编辑器
· 零经验选手,Compose 一天开发一款小游戏!
· 通过 API 将Deepseek响应流式内容输出到前端
· AI Agent开发,如何调用三方的API Function,是通过提示词来发起调用的吗
2022-07-10 使用sktime进行时间序列预测zz
2022-07-10 Python图形化数据分析库汇总
2022-07-10 Matrix Profile 与 Stumpy (时间序列挖掘,矩阵画像)zz
2009-07-10 zz将 VSTO 插件部署给所有用户
2009-07-10 zzVSTO 先瘦身再发布:客户端配置文件
2009-07-10 zz怎样移除文档和 VSTO 代码的关联?
2009-07-10 zz给 VSTO 插件、文档传送参数