最新!大模型真的存在涌现能力吗?

发布时间 2023-11-19 12:36:53作者: 大模型的艺术

摘要

近期的研究表明,大型语言模型展现出了一种涌现能力,这种能力在小规模模型中不存在,但在大规模模型中显现出来。这种涌现能力吸引人的地方有两个:其一是它们的突然性,似乎是瞬间从不存在转变为存在;其二是它们的不可预测性,在看似难以预见的模型规模上出现。在这里,我们提出了一种关于涌现能力的替代解释:对于特定任务和模型家族,在分析固定模型输出时,涌现能力的出现是由于研究者选择的度量标准,而非模型行为随规模的根本性变化。具体而言,非线性或不连续的度量标准会产生表面上的涌现能力,而线性或连续的度量标准则产生平滑、连续、可预测的模型性能变化。我们在一个简单的数学模型中提出我们的替代解释,然后通过三种互补方式进行测试:我们(1)使用InstructGPT/GPT-3家族对声称具有涌现能力的任务进行度量标准选择的三个预测的制作、测试和确认,(2)在BIG-Bench的涌现能力元分析中对度量标准选择进行两个预测的制作、测试和确认;以及(3)展示如何选择度量标准,在多个视觉任务中的多种深度网络上产生前所未见的看似涌现的能力。通过这三种分析,我们提供了证据表明,所谓的涌现能力会随着不同的度量标准或更好的统计数据而消失,可能不是扩展AI模型的一个根本性质。

介绍

复杂系统的涌现属性长期以来一直是跨学科研究的焦点,从物理学到生物学再到数学。涌现的概念由诺贝尔奖获得者物理学家P.W. 安德森在其“更多是不同的”一文中普及开来,他认为随着系统复杂性的增加,可能会出现一些新属性,即使从系统的微观细节的精确定量理解也无法预测这些属性。最近,由于观察到大型语言模型(LLMs)如GPT、PaLM和LaMDA展现所谓的“涌现能力”,涌现的概念在机器学习领域引起了显著关注。

“LLMs的涌现能力”这一术语最近被清晰地定义为“在小规模模型中不存在但在大规模模型中存在的能力;因此,仅通过外推小规模模型的性能提升是无法预测的。”这种涌现能力首次在GPT-3家族中被发现。随后的工作强调了这一发现,指出“[尽管模型]的性能在一般水平上是可预测的,但在特定任务上的性能有时可以在规模上非常不可预测和突然地出现”。这些引用共同确定了LLMs中涌现能力的两个定义特性。

  1. 急剧性,似乎是瞬间从不存在转变为存在。
  2. 不可预测性,在看似无法预见的模型规模上发生转变。

这些涌现能力引起了极大的兴趣,提出了如下问题:是什么控制着哪些能力会涌现?是什么决定了能力何时涌现?我们如何能够使得理想的能力更快涌现,并确保不希望出现的能力永远不会涌现?这些问题对于AI的安全性和对齐尤为重要,因为涌现能力预示着更大的模型可能有一天会突然掌握不希望拥有的危险能力。

在本文中,我们质疑LLMs是否真的具备涌现能力,我们特指在特定任务上模型规模的急剧和不可预测的模型输出变化。我们的怀疑源于这样的观察:涌现能力似乎只在那些对任何模型的每个令牌错误率进行非线性或不连续缩放的度量标准下出现。例如,正如我们后面展示的,BIG-Bench任务中超过92%的涌现能力似乎只在这两种度量标准下出现:

多项选择评分如果正确选项上具有最高的概率质量精确字符串匹配如果输出字符串与目标字符串完全匹配

这提出了一个关于LLMs涌现能力起源的替代解释的可能性:急剧和不可预测的变化可能是由研究者选择的测量方式引起的,即使模型家族的每个令牌错误率随规模的增加而平滑、连续和可预测地变化。具体来说,我们的替代假设认为涌现能力是一个幻象,主要是由于研究者选择了一种非线性或不连续地扭曲每个令牌错误率的度量标准,其次是由于测试数据过少,无法准确估计较小模型的性能,因此使较小的模型看起来完全无法执行任务。

为了传达我们的替代解释,我们将其呈现为一个简单的数学模型,并展示它如何定量地再现支持LLMs涌现能力的证据。然后,我们通过以下三种互补方式测试我们的替代解释:

  1. 我们使用InstructGPT / GPT-3模型家族,基于我们的替代假设制作、测试并确认三个预测。

  2. 我们对已发布的基准测试进行元分析,揭示涌现能力只在特定度量标准下出现,而不是针对特定任务的模型家族,且改变度量标准会导致涌现现象消失。

  3. 我们在多种视觉任务的多个架构中,通过有意改变评估用的度量标准,引发了前所未见的、看似涌现的能力。

涌现能力的替代解释

模型家族性能的平滑、连续、可预测变化如何看起来急剧和不可预测?答案在于研究者选择的非线性或不连续度量标准可能扭曲了模型家族的性能,使其看起来急剧和不可预测。

图2:大型语言模型的新出现的能力是由研究人员选择的度量标准所创建的,而不是模型行为随规模发生不可预测的变化。(A)假设每个标记的交叉熵损失随着模型规模单调减小,例如,LCE遵循幂律。 (B)选择正确标记的每个标记的概率渐近于1。 (C)如果研究人员使用非线性度量标准(例如Accuracy,需要一系列标记都正确)评分模型的输出,度量标准选择会非线性地扩展性能,导致性能以与已发布的新出现能力定性相符的尖锐和不可预测的方式发生变化(嵌入图)。 (D)如果研究人员使用不连续的度量标准(类似于阶跃函数)评分模型的输出,度量标准的选择会不连续地扩展性能,再次导致性能发生尖锐和不可预测的变化。 (E)从非线性度量标准更改为线性度量标准(例如Token Edit Distance),缩放显示出平滑、连续和可预测的改进,减弱了新出现的能力。 (F)从不连续的度量标准更改为连续的度量标准(例如Brier Score)再次显示出任务性能的平滑、连续和可预测的改进。因此,新出现的能力是由研究人员选择的度量标准所创建的,而不是模型系列在特定任务上随着规模发生根本性变化的结果。图2:大型语言模型的新出现的能力是由研究人员选择的度量标准所创建的,而不是模型行为随规模发生不可预测的变化。(A)假设每个标记的交叉熵损失随着模型规模单调减小,例如,LCE遵循幂律。 (B)选择正确标记的每个标记的概率渐近于1。 (C)如果研究人员使用非线性度量标准(例如Accuracy,需要一系列标记都正确)评分模型的输出,度量标准选择会非线性地扩展性能,导致性能以与已发布的新出现能力定性相符的尖锐和不可预测的方式发生变化(嵌入图)。 (D)如果研究人员使用不连续的度量标准(类似于阶跃函数)评分模型的输出,度量标准的选择会不连续地扩展性能,再次导致性能发生尖锐和不可预测的变化。 (E)从非线性度量标准更改为线性度量标准(例如Token Edit Distance),缩放显示出平滑、连续和可预测的改进,减弱了新出现的能力。 (F)从不连续的度量标准更改为连续的度量标准(例如Brier Score)再次显示出任务性能的平滑、连续和可预测的改进。因此,新出现的能力是由研究人员选择的度量标准所创建的,而不是模型系列在特定任务上随着规模发生根本性变化的结果。

为了详细说明,假设在一个模型家族内,测试损失随着模型参数数量的增加而平滑、连续和可预测地下降。相信这一点的一个原因是所谓的神经网络缩放定律:深度网络在测试损失中展现出作为训练数据集大小、参数数量或计算量的函数的幂律缩放的经验观察。具体来说,假设我们有一个参数数量N > 0不同的模型家族,并假设每个模型的每令牌交叉熵随参数数量N呈幂律下降,其中常数c > 0, α < 0(图2A):

为了明确,我们并不要求这个特定的功能形式成立;相反,我们使用它来进行说明。让V表示可能的标记集,表示真实但未知的概率分布,而表示具有N个参数的模型的预测概率分布。随着参数数量N的增加,每个标记的交叉熵如下所示:

在实际应用中,由于p是未知的,所以我们用观察到的标记v∗的独热分布来替代它:

具有N个参数的模型然后具有选择正确标记的每个标记概率(图2B):

假设研究人员随后选择了一个需要正确选择L个标记的度量标准。例如,我们的任务可能是L位整数相加,如果模型的输出中的所有L个输出数字与目标数字完全匹配且没有添加、删除或替换,则得分为1,否则为0。如果每个标记的正确概率是独立的1,得分为1的概率是:

如果研究人员从像准确率这样的非线性度量标准切换到一个近似线性的度量标准,比如标记编辑距离,其中每个标记的错误率在目标长度上几乎是线性的(附录A.2),会发生什么情况呢?这个选择将导致性能与标记序列长度的增加呈非线性比例关系。在绘制线性-对数图上,可以看到在更长的序列上出现了尖锐、难以预测的新出现能力(图2C),这与所声称的新出现能力(插图中的小图)非常相似。

线性度量标准显示了模型性能的平滑、连续、可预测的变化(图2E)。类似地,如果研究人员使用了不连续的度量标准,比如多项选择分数,研究人员可以发现新出现的能力(图2D),但切换到连续的度量标准,如布里尔分数,会消除新出现的能力(图2F)。总之,随着规模的增加,出现的尖锐和难以预测的变化可以完全由三个可解释的因素来解释:(1)研究人员选择了一个非线性或不连续地缩放每个标记的错误率的度量标准,(2)在较小参数范围内无法估计模型性能,分辨率由1/测试数据集大小确定,以及(3)对较大参数范围进行的采样不足。

分析InstructGPT/GPT-3涌现的算术能力

先前的论文显著声称GPT系列在整数算术任务上展示了新出现的能力(图2E)。我们选择了这些任务,因为它们在之前的研究中被显著提出而且我们专注于GPT系列,因为它可以公开查询。如在第2节数学和视觉上所解释的那样,我们的替代解释提出了三个预测:

  1. 从非线性或不连续的度量标准(图2CD)切换到线性或连续的度量标准(图2EF)应该显示出随着模型规模的增加,性能改善是平滑、连续、可预测的。

  2. 对于非线性度量标准,通过增加测试数据集的大小来增加测量模型性能的分辨率应该显示出与所选择的度量标准的可预测非线性效应相符的平滑、连续、可预测的模型改进。

  3. 无论度量标准如何,增加目标字符串的长度都应该根据长度为1的目标性能来可预测地影响模型的性能:对于准确度来说,大致呈几何级数关系,对于标记编辑距离来说,大致呈准线性关系。

为了测试这些预测,我们收集了InstructGPT/GPT-3系列在两个任务上的输出:两个两位整数之间的2次乘法和两个四位整数之间的2次加法。


图3:声称的新出现的能力在更改度量标准时消失。从左到右:数学模型,2个整数2位数乘法任务,2个整数4位数加法任务。顶部:当性能由非线性度量标准(例如准确度)衡量时,InstructGPT/GPT-3 系列在更长的目标长度上性能表现尖锐且难以预测。底部:当性能由线性度量标准(例如标记编辑距离)衡量时,该系列表现出平滑、可预测的性能改进。 图3:声称的新出现的能力在更改度量标准时消失。从左到右:数学模型,2个整数2位数乘法任务,2个整数4位数加法任务。顶部:当性能由非线性度量标准(例如准确度)衡量时,InstructGPT/GPT-3 系列在更长的目标长度上性能表现尖锐且难以预测。底部:当性能由线性度量标准(例如标记编辑距离)衡量时,该系列表现出平滑、可预测的性能改进。

预测:使用不同度量标准新出现的能力消失在两个算术任务中,如果目标具有4或5位数字,而度量标准是准确度(图3,顶部),GPT系列就会展示新出现的能力。然而,如果我们从非线性的准确度改变为线性的标记编辑距离,同时保持模型的输出不变,那么该系列的性能会随着规模的增加平滑、连续且可预测地提高(图3,底部)。这验证了我们的第一个预测,并支持了我们的替代解释,即新出现的能力的源头是研究人员选择的度量标准,而不是模型系列的输出的变化。我们还观察到,在标记编辑距离下,将目标字符串的长度从1增加到5会以大致准线性的方式可预测地降低该系列的性能,这证实了我们第三个预测的前半部分。

图4:声称的新出现的能力在使用更好的统计数据时消失。从左到右:数学模型,2个整数2位数乘法任务,2个整数4位数加法任务。根据准确度对性能的可预测影响,衡量性能需要高分辨率。生成额外的测试数据增加了分辨率,并显示,即使在准确度上,InstructGPT/GPT-3家族的[3, 24]性能也高于偶然,并且以一种平滑、连续、可预测的方式改进,与数学模型在质量上相符。图4:声称的新出现的能力在使用更好的统计数据时消失。从左到右:数学模型,2个整数2位数乘法任务,2个整数4位数加法任务。根据准确度对性能的可预测影响,衡量性能需要高分辨率。生成额外的测试数据增加了分辨率,并显示,即使在准确度上,InstructGPT/GPT-3家族的[3, 24]性能也高于偶然,并且以一种平滑、连续、可预测的方式改进,与数学模型在质量上相符。

预测:更好的统计数据使新出现的能力消失接下来,我们测试了第二个预测:即使在像准确度这样的非线性度量标准上,较小的模型也不会具有零准确度,而是具有与选择使用准确度作为度量标准相符的非零超过随机准确度的准确度。为了准确地测量模型的准确度,我们增加了分辨率,生成了额外的测试数据,并发现在两个算术任务中,InstructGPT/GPT-3系列中的所有模型都实现了超过随机准确度的准确度(图4)。这验证了我们的第二个预测。我们还观察到,随着目标字符串长度的增加,准确度大致以目标字符串长度的几何级数方式下降,这证实了我们第三个预测的后半部分。这些结果进一步表明,研究人员选择的度量标准具有应该具有的效果,即随着目标长度的增加,准确度呈几何级数下降。

所声称的新出现能力的元分析

分析GPT系列是可能的,因为这些模型可以公开查询。然而,声称具有新出现能力的其他模型系列不可公开查询,它们的生成输出也不是公开可用的,这意味着我们只能分析已发布的结果本身。我们的替代解释提出了两个预测。

  1. 在任务-度量标准-模型系列三元组的“群体水平”上,新出现的能力应该主要出现在特定的度量标准上,而不是任务-模型系列对,尤其是在非线性和/或不连续的度量标准下。
  2. 在显示新出现能力的个别任务-度量标准-模型系列三元组中,将度量标准更改为线性和/或连续的度量标准应该会消除新出现的能力。

为了测试这些预测,我们使用了BIG-Bench上声称的新出现的能力,因为这个基准是相关的并且公开可用。 预测:新出现的能力应该与度量标准有关,而不是与任务-模型系列有关如果新出现的能力是真实存在的,人们应该期望任务-模型系列对在所有合理的度量标准下都显示出新出现的能力。然而,如果我们的替代解释是正确的,我们应该期望新出现的能力只在某些度量标准下出现。为了测试这一点,我们分析了新出现的能力出现在哪些度量标准上。为了确定一个任务-度量标准-模型系列三元组是否具有可能的新出现的能力,我们使用了先前研究中的一个度量标准。让yi ∈ R表示模型规模xi ∈ R的模型性能,按照xi < xi+1的顺序排列,新出现得分为:

我们发现在BIG-Bench中使用的大多数度量标准中,几乎没有任务-模型系列对表现出新出现的能力:在BIG-Bench的39个首选度量标准中,最多只有5个显示出新出现的能力(图5A)。其中许多度量标准是非线性和/或不连续的,例如Exact String Match、Multiple Choice Grade、ROUGE-L-Sum等(附录A.4)。值得注意的是,由于BIG-Bench经常使用多个度量标准对任务评分,其他度量标准下缺乏新出现的能力表明,在使用其他度量标准评分模型输出时,新出现的能力并不会出现。

图5:新出现的能力仅在特定的度量标准下出现,而不是在任务-模型系列中出现。 (A)可能的新出现的能力最多出现在39个BIG-Bench度量标准中的5个度量标准中。 (B)的手工注释数据显示,新出现的能力仅在4个首选度量标准下出现。 (C)> 92%的新出现的能力出现在两个度量标准之一下:Multiple Choice Grade和Exact String Match。图5:新出现的能力仅在特定的度量标准下出现,而不是在任务-模型系列中出现。 (A)可能的新出现的能力最多出现在39个BIG-Bench度量标准中的5个度量标准中。 (B)的手工注释数据显示,新出现的能力仅在4个首选度量标准下出现。 (C)> 92%的新出现的能力出现在两个度量标准之一下:Multiple Choice Grade和Exact String Match。

因为新出现得分只是暗示着新出现,我们还分析了手工注释的任务-度量标准-模型系列三元组,发现在39个度量标准中,只有4个度量标准显示出新出现的能力(图5B),而其中2个度量标准占据了超过92%的声称的新出现的能力(图5C):Multiple Choice Grade和Exact String Match。Multiple Choice Grade是不连续的,而Exact String Match是非线性的。

图6:在评估任务-模型系列对时更改度量标准会导致新出现的能力消失。左侧:在不连续的Multiple Choice Grade下测量时,LaMDA模型系列显示出新出现的能力。右侧:在连续的BIG-Bench度量标准(Brier Score)下测量时,LaMDA模型系列的新出现的能力消失。图6:在评估任务-模型系列对时更改度量标准会导致新出现的能力消失。左侧:在不连续的Multiple Choice Grade下测量时,LaMDA模型系列显示出新出现的能力。右侧:在连续的BIG-Bench度量标准(Brier Score)下测量时,LaMDA模型系列的新出现的能力消失。

预测:更改度量标准会消除新出现的能力为了测试我们的第二个预测,我们专注于LaMDA家族,因为它的输出可以通过BIG-Bench获得。在我们的分析中,我们确定了LaMDA在使用Multiple Choice Grade度量标准时显示新出现的能力的任务,然后询问在相同的任务上,当我们使用不同的BIG-Bench度量标准,即Brier Score时,LaMDA是否仍然在这些任务上显示新出现的能力。Brier Score是用于互斥结果的预测的严格适当的评分规则;对于二元结果,Brier Score简化为结果与其预测的概率质量之间的均方误差。当我们将度量标准更改为连续的Brier Score时,LaMDA在不连续的Multiple Choice Grade上的新出现能力消失了(图6)。这些结果支持我们的替代解释,即新出现的能力是由所选择的度量标准引起的。

在视觉任务中诱发网络的新出现能力

为了演示研究人员选择的度量标准如何诱发新出现的能力,我们展示了如何在各种架构的深度网络中产生新出现的能力:全连接、卷积、自注意力。我们关注视觉任务,因为据我们所知,视觉模型的能力没有出现突然的转变;这是为什么大型语言模型中的新出现被认为如此有趣的原因之一。有关卷积示例,请参见附录B。

图7:在浅层非线性自编码器中诱发新出现的重建能力。 (A)BIG-Bench周期元素任务的已发布新出现的能力。 (B)在CIFAR100上训练的浅层非线性自编码器显示出平滑递减的均方重建误差。 (C)使用新定义的Reconstructionc度量标准(方程2)引发了一个不可预测的变化。图7:在浅层非线性自编码器中诱发新出现的重建能力。 (A)BIG-Bench周期元素任务的已发布新出现的能力。 (B)在CIFAR100上训练的浅层非线性自编码器显示出平滑递减的均方重建误差。 (C)使用新定义的Reconstructionc度量标准(方程2)引发了一个不可预测的变化。 图8:在自回归变换器中诱发新出现的分类能力。 (A)在MMLU基准测试中发布的新出现的能力。 (B)训练用于分类Omniglot图像的自回归变换器显示出随着规模增加而增加的准确度。 (C)当准确度被重新定义为正确分类所有图像时,看似出现了新出现的能力。图8:在自回归变换器中诱发新出现的分类能力。 (A)在MMLU基准测试中发布的新出现的能力。 (B)训练用于分类Omniglot图像的自回归变换器显示出随着规模增加而增加的准确度。 (C)当准确度被重新定义为正确分类所有图像时,看似出现了新出现的能力。

通过非线性自编码器的新出现对CIFAR100自然图像的重建首先,我们在训练在CIFAR100自然图像上的浅层(即单隐藏层)非线性自编码器中诱发了一种重建图像的新出现能力。为了强调度量标准的尖锐性导致新出现的能力,以及显示尖锐性扩展到准确度之外的度量标准,我们有意地定义了一个不连续的度量标准,该度量标准度量网络重建数据集的能力,即测试数据中平方重建误差低于阈值c的平均数量:

其中I(·)表示指示变量,xˆn是自编码器对xn的重建。当瓶颈单元的数量增加时,自编码器系列显示出平滑下降的平方重建误差(图7B)。在我们新定义的Reconstructionc度量标准下,对于特定的c选择,自编码器系列表现出一种尖锐且似乎难以预测的图像重建能力(图7C),在质量上与已发布的新出现的能力相符(图7A)。

通过自回归变换器在Omniglot字符上诱发新出现的分类能力接下来,我们在训练成自回归分类Omniglot手写字符的变换器中诱发新出现的能力,这是受到最近的研究工作的启发。Omniglot图像通过卷积层嵌入,然后嵌入图像-图像类标签对的序列被馈送到只有解码器的变换器中。我们通过长度为L ∈ [1,5]的序列来衡量图像分类性能,同样是通过子集准确度:如果所有L个图像都被正确分类,则为1(图8B),否则为0。因果变换器表现出一种看似新出现的能力,能够正确分类Omniglot手写字符(图8C),在质量上与已发布的新出现的能力相符(图8A)。

讨论

我们的论文提出了对大型语言模型声称的新出现能力的一种替代解释。对于一个固定的任务和一个固定的模型系列,研究人员可以选择一个度量标准来创造新出现的能力,或选择一个度量标准来减弱新出现的能力。因此,新出现的能力可能是研究人员选择的创造物,而不是模型系列在特定任务上的基本属性。我们强调,本文中的任何内容都不应被解释为声称大型语言模型不能显示新出现的能力;相反,我们的观点是,以前声称的新出现的能力可能更有可能是由研究人员分析引发的幻象。

我们的论文有几个含义。首先,在构建基准时,任务和度量标准是不同且有意义的选择。其次,在选择度量标准时,人们应该考虑度量标准对每个标记的错误率的影响,并相应地调整他们的测量过程,例如,如果选择准确度,应该确保有足够的数据来准确测量准确度,以避免得出无效的科学结论的风险。第三,当声称大模型的能力时,包括适当的控制是至关重要的。在这个特定的环境中,新出现的能力的声称可能受到了未能控制多重比较的影响。仅在BIG-Bench中,就有≥ 220个任务,每个任务约有40个度量标准,约有10个模型系列,总共约有10的6次方个任务-度量标准-模型系列三元组,这意味着通过随机机会没有任务-度量标准-模型系列三元组显示新出现的能力的可能性可能很小。第四,当模型及其输出不对外公开供独立的科学研究时,科学进展可能会受到阻碍。

欢迎关注我们,大模型的艺术。一起学习大模型的原理及探索大模型的应用落地,欢迎交流。如果你有什么想问想说的,可以在评论区留言或者后台直接留言,我们会第一时间进行回复。

关注后:
回复【白皮书】即可获得世界经济论坛关于AIGC/LLM如何重塑我们工作的白皮书,看看你的工作未来有多少内容会被影响吧。
回复【论文】:即可免费领取NLP必读经典论文,包括attention,bert,word2vec等必读论文。还有2023最新的LLMs相关论文,包括RLHF最新最全最高引论文!多达100多篇全部需要收费的论文,回复即可免费获取!
回复【提示】:可免费领取提示工程指南,包括prompt工程基本提示,prompt工程高级提示,prompt工程Chatgpt提示,prompt工程Midjounery提示,prompt工程StableDiffusion提示,等等。让你从小白直接成为提示工程师的全套提示资料!