Waluigi Effect(瓦路易吉效应)

发布时间 2023-04-10 17:04:41作者: stardsd

The Waluigi Effect (mega-post) - LessWrong

Waluigi Effect(瓦路易吉效应)是一个伴随ChatGPT出现的新概念。Waluigi是Mario游戏中的反派角色,是Luigi的头号对手。Waluigi Effect则指训练AI做某件事情会增加其做完全相反的事情的概率。LessWrong这篇文章从技术角度分析了这一现象。

从认识层面这个现象不难理解,比如训练AI永远不要伤害人类,首先需要定义何为伤害人类,即AI必然知道如何伤害人类。

此外有一篇这个概念的溯源文档:Waluigi Effect (Artificial Intelligence)