Waluigi Effect(瓦路易吉效应)
The Waluigi Effect (mega-post) - LessWrong
Waluigi Effect(瓦路易吉效应)是一个伴随ChatGPT出现的新概念。Waluigi是Mario游戏中的反派角色,是Luigi的头号对手。Waluigi Effect则指训练AI做某件事情会增加其做完全相反的事情的概率。LessWrong这篇文章从技术角度分析了这一现象。
从认识层面这个现象不难理解,比如训练AI永远不要伤害人类,首先需要定义何为伤害人类,即AI必然知道如何伤害人类。
此外有一篇这个概念的溯源文档:Waluigi Effect (Artificial Intelligence)
如果这篇文章帮助到了你,你可以请作者喝一杯咖啡