一、Abstract

由于Transformer在NLP中得到了广泛的应用，Transformer在CV中的潜力得到了实现，并激发了许多新的方法。然而，在对图像进行标记化之后，用图像补丁替换Transformer的单词标记所需的计算量是巨大的(例如， ViT)，这阻碍了模型训练和推理。本文在Transformer中提出了一种新的注意机制，称为交叉注意，它将注意力转移到图像块内部而不是整个图像以获取局部信息，并将注意力转移到由单通道特征图划分的图像块之间以获取全局信息。这两个操作的计算量都比Transformer中的标准自注意力要少。通过在patch内部和patch之间交替应用注意，实现了以较低的计算成本保持性能的交叉注意，并建立了用于其他视觉任务的分层网络，称为交叉注意转换器(CAT)。我们的基础模型在ImageNet-1K上达到了最先进的水平，并在COCO和ADE20K上提高了其他方法的性能，说明我们的网络具有作为通用骨干的潜力。

二、Motivation

1.历史遗留问题

在NLP任务中，文本的长度是固定的，在CV任务中，由于输入图像的分辨率是多样的，导致了Transformer处理图像能力的下降。在Transformer处理图像处理的过程中，一种原始的的方法是将输入图内的每个像素视作是全局关注的token，类似于工作token。一些工作已经证明这种方式的计算成本是巨大的。ViT等工作将一个区域内的一组像素视作为一个token，在一定程度上减少了计算量。但是当输入大小变大时，计算量会急剧增加，并且，这些方法生成的特征图尺寸是一致的，缺乏多尺度的信息，不利于下游任务的完成。

2.受到CNN的启发