Fork me on GitHub

Waluigi Effect（瓦路易吉效应）

The Waluigi Effect (mega-post) - LessWrong

Waluigi Effect（瓦路易吉效应）是一个伴随ChatGPT出现的新概念。Waluigi是Mario游戏中的反派角色，是Luigi的头号对手。Waluigi Effect则指训练AI做某件事情会增加其做完全相反的事情的概率。LessWrong这篇文章从技术角度分析了这一现象。

从认识层面这个现象不难理解，比如训练AI永远不要伤害人类，首先需要定义何为伤害人类，即AI必然知道如何伤害人类。

此外有一篇这个概念的溯源文档：Waluigi Effect (Artificial Intelligence)

posted @ 2023-04-10 16:56 stardsd 阅读(358) 评论(0) 收藏举报

刷新页面返回顶部