释放双眼，带上耳机，听听看~！

本文介绍了Transformer架构在CV任务中的应用及挑战，以及与之相关的MAE（Masked Autoencoders）技术，讨论了图像重建和遮盖训练的相关内容。

⚠️⚠️⚠️本文为稀土掘金技术社区首发签约文章，30天内禁止转载，30天后未获授权禁止转载，侵权必究！

在之前VIT的介绍中，我们介绍过用Transformer（Encoder）的架构来做图片分类技术。VIT成功证明了我们可以用语言模型的架构替换CNN，来做普适性的图像分类任务，这也为后续一系列CV大模型、多模态模型等发展奠定了基础。

那么，既然VIT的能力如此之强，只用它来验证分类任务，是不是太浪费了？我能再给它上点难度吗？比如，我把图像随机遮盖掉一部分，让它做像素级别的图像重建？

今天我们要来讲解的MAE(Masked Autoencoders) ，就与这个目的息息相关。

CV大模型系列文章导航（持续更新中）：
🌸CV大模型系列之：MoCo v1，利用对比学习在CV任务上做无监督训练🌸
🌸CV大模型系列之：DALLE2，OpenAI文生图代表作解读🌸

一、MAE产生的背景

我们知道，以Transformer架构为基础的大语言模型，在预训练时，基本都采用自监督（self-supervised） 学习的方法。也就是，训练数据不需要任何人为标注（label），训练数据本身就是label。

举个例子，以Transformer Encoder架构为代表的Bert一族，在预训练时采用了遮码(mask)训练的方法。也就是给定一段话，随机mask掉这段话中的一些单词，然后让Bert去预测出这些被遮盖的单词，这就很像在做完形填空，而被盖住的单词本身就是label。再例如，以Transformer Decoder架构为代表的GPT一族，在训练时采用了上下文接龙的训练方法。也就是给定一段话，我把它的下文（completion）遮住，让你根据它的上文(context)预测出下文，此时被遮住的下文就时label。

自监督训练不仅能锻炼模型对输入数据的特征的提取能力，还能帮人省下一大笔人工标注的钱。因此它在Transformer架构下的NLP领域很快火了起来。

但是，为何自监督训练在CV领域的应用落后于NLP？ 主要原因有三方面：

（1）CV模型与NLP模型的架构不同

在VIT成功之前，CV领域占主导的方法依然是卷积神经网络（CNN）。想象一下，你把一张图随机遮盖掉一部分，当你的卷积窗口在这张图片上移动时，它会同时把已遮盖和未遮盖的部分囊括进去，换而言之，它很难找到那些真正被遮盖的部分，更不要提进一步去预测它了。但这个问题在VIT被提出后得到了解决，我们可以选择遮盖掉图片中的patch，而patch的输入是独立的。这也为MAE的发展奠定了基础。

（2）CV模型与NLP模型的信息密度不一样

想象一下，一句话的语义信息是丰富的，但一张图的像素信息是冗余的（回顾一下图像插值能奏效的原因，就是因为相邻的pixel像素值差别不大）。因此，在NLP中，我们可能只需mask掉少量的数据，就能迫使模型学到语义信息；但是在CV中，对一张图我们需要mask掉大量的像素块，才能迫使模型不靠学插值，而真正从图像语义上重建图像。

（3）CV模型与NLP模型对decoder的需求不一样

在NLP任务中，我的encoder负责提取的文字特征是高语义的，我的decoder负责重建的是文字，也是高语义的。在CV任务中，我的encoder负责提取的图像特征是高语义的（把图像中的精华提取出来），但我的decoder负责重建的图像却是低语义的（还原完整的一张图，势必包含很多冗余的像素信息）。

换而言之，NLP的encoder-decoder架构设计和训练间几乎没差异（symmetric，对称），但CV的encoder-decoder却存在差异（asymmetric，非对称） 。对于NLP任务，比如Bert，由于编码目标和解码目标一致，因此完全可以用一个简单的线性分类器MLP代替decoder，毕竟encoder已学到完全的语义。但对CV来说，decoder的设计会影响最终结果。这点我们在MAE的实验中也会看到。

好，基于以上三点的分析，作者提出了用于做CV自监督训练的MAE模型。一来，它是Transformer架构（解决（1））；二来，在训练中它mask掉了图片的大部分（解决（2））；三来，它有一个不对称的encoder-decoder架构（解决（3））。

花了这么多文字，理了一遍MAE产生的背景，是不是看得有点眼花了？在正式介绍MAE前，我们放松下，先来看看MAE最终重建图像的效果吧。

（左：做完mask处理的输入数据；中：MAE预测结果；右：真值）

Transformer架构在CV任务中的应用及挑战-MAE介绍

二、MAE架构

Transformer架构在CV任务中的应用及挑战-MAE介绍

2.1 MAE整体训练流程

如上图所示，MAE的整体训练流程分为以下几步：

（1）对原始输入图片切分patch（对patch定义和具体操作方法有疑问的朋友，可以参考这篇讲解VIT的文章）。

（2）对patch进行随机采样，采样出约75%比例的patch，对这些patch做mask处理（图中灰色部分）。

（3）对非mask的patch，将其转变为emebdding，同时添加位置编码。然后将其送入encoder部分，让encoder从中提取图像的高语义信息。

（4）对于encoder部分的输出，我们按顺序将原来mask的patch拼接上去，同时添加位置编码，送入decoder进行训练。注意此时，我们是用同一个可训练的embedding，来表示所有被mask的patch。

（5）decoder部分将做像素级别的预测，对原始图像结果进行重建，训练中的loss为MAE loss，计算的是预测像素值和真实像素值之间的损失。在实际操作中，可以在patch维度计算像素的均值和标准差，然后对像素做归一化处理，这样的效果会更好。

（6）当我们训练完毕后，就可以把decoder移开，拿encoder部分做我们的特征提取器，然后继续做别的下游任务了。也就是使用MAE，通过图像重建任务来做预训练的最终目的是，取得一个强有力的特征提取encoder，方便迁移到其他类型（例如分类、检测）任务上。我们会在后文来探寻为什么能够这样操作。

在这6步当中，我们着重来说明“对patch的随机mask”和“encoder-decoder的设计”。

2.2 对patch的mask策略

由2.1的（1）（2）步可知，MAE首先要做的就是对输入数据做mask处理。但是：

如何决定哪些patch要被mask？
如何决定有多少比例的patch要被mask？

这两个看似简单的问题，却影响了MAE最终的结果。

我们先来看问题一：有哪些patch需要被mask？ 在这里我们假设被mask的比例是75%，在此基础上探寻mask不停位置的patch对最终图像重建结果的影响。如下图，作者做了三种尝试：

Transformer架构在CV任务中的应用及挑战-MAE介绍

（1）尝试一：随机mask掉75%比例的patch

在这一方法中，作者先对图片划分好patch，然后随机抽取其中75%左右的patch。可以发现此时，MAE的图像重建能力是最好的

（2）尝试二：按连续性块对patch做mask

在这一方法中，作者在图片中选择了一片连续性区域，对这片区域中的patch做mask（因为这项实验侧重在“连续性”上，只要连续性块足够大就能达到实验目的，所以这里选择的mask比例是50%）。可以发现，此时MAE图像重建能力是最差的。

（3）尝试三：规律性地采用网格策略对patch做mask

在这一方法中，规律性是指每隔4块patch就做一次mask。此时MAE产生的重建结果就挺耐人寻味：因为mask的策略有规律可循，它似乎把其当成了图像固有的一个特征，因此重建后的图片的网格形状仍清晰可见。

从这三种尝试中，我们可以得出结论：采用随机采样策略做mask是最好的， 因为此时既能避免模型从四周patch中通过插值猜测像素值，又能给模型提供合理的上下文信息，属实是给模型上了合理的难度。

我们再来看第二个问题：需要mask多少比例的patch？

在针对问题一做的实验中，我们假设作者已找到了最佳mask比例：75%。但是这个比例是怎么找出来的呢？

同样，作者也针对不同的mask比例，设计了一串实验，评估MAE最终效果，实验数据如下：

Transformer架构在CV任务中的应用及挑战-MAE介绍

首先，这个实验是在预训练结束后，取出encoder，在ImageNet-1K的数据集上做微调得到的。fine-tuning和linear probing对应的是两种不同的微调方法。

fine-tuning，指的是全参数微调，也就是说在微调下游任务的过程中，允许encoder部分的全量参数都做训练更新。linear probing，指的是部分参数微调，也就是在encoder最后加一层简单的线性层，微调时只有这部分线性层的参数能被更新，encoder的主体部分时被冻结的。

从从这个实验结果上看，不管是fine-tuning还是linear probing，微调效果都呈现出随着mask比例增加而上升的趋势，但mask比例超过一定数值时，整体效果呈下降趋势（难度上过头了）。

同时，我们也注意到，fine-tuning的微调准确率基线比linear probing要高很多，而linear probing对mask比例变化的敏感度比fine-tuning要高很多。这个原因是，fine-tuning能全参数微调，相比于linear probing，肯定更能适配下游任务。也正是因此，linear probing对预训练出来的原生encoder的依赖性也越高，因为它的特征提取能力直接决定了微调效果。

2.3 encoder和decoder设计

回顾第一部分对MAE产生的背景的介绍，我们知道其encoder-decoder是非对称的。

对encoder来说，它吃的是图片中非mask的部分，然后学习提取这部分的特征，此时encoder的输出是高语义的；但是对decoder来说，它需要将高语义的信息还原回原始图片（势必带有冗余的像素信息），也就是decoder的输出是低语义的。

基于这一总体设计思想，encoder的模型架构应该更复杂，decoder的架构应该更轻量（lightweight）。这样，我们就能在减少计算量的同时（encoder只吃25%的patch），反向迫使encoder产生更好的特征（毕竟decoder要做的事情很简单，因此只能寄希望于encoder更加争气）。

但是，decoder真的越简单越好吗？如果像Bert那样，退化成一个MLP层，是不是也可以呢？针对这个问题，作者同样设计了不同复杂度的decoder，来验证其在微调数据上的效果：

Transformer架构在CV任务中的应用及挑战-MAE介绍

在这个实验中，作者将decoder的深度和宽度都作为变量，做了一系列实验。从中我们还是可以看出，随着decoder模型复杂度的上升，fine-tuning和linear probing的效果也是越好，但复杂度超过某一阈值时，微调的效果不升反降。

所以这个实验也告诉我们很重要的一点：虽然MAE的encoder和decoder是不对称的，且原则上decoder应该更加轻量，但这不意味着decoder越简单越好。 当decoder具有一定的复杂度时，它能把图像重建的事做好，这就使得encoder不需要关注重建的结果，进而专心提取特征。而当decoder过于复杂时，它可能会去兼顾原本encoder要做的事情，这就导致encoder在训练中松懈，不能得到很好的训练效果。

关于MAE，论文中还列出了许多有趣的实验和效果图，感兴趣的朋友可以去读相关章节。因为之前VIT的讲解中，我们已经囊括了许多关于Transformer架构做CV任务的技术细节，因此MAE这章我们就只取精华部分进行讲解啦。如果对技术细节有疑问的朋友，欢迎阅读这篇解析VIT的文章。

三、参考

1、arxiv.org/abs/2111.06…

2、github.com/facebookres…

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

Transformer架构在CV任务中的应用及挑战-MAE介绍

一、MAE产生的背景

二、MAE架构

2.1 MAE整体训练流程

2.2 对patch的mask策略

2.3 encoder和decoder设计

三、参考

OpenAI官方宣布领导层换届，CEO和联合创始人相继离职

深度学习环境配置教程：Python3.6.5、jupyter notebook、TensorFlow2.4.1、NVIDIA GeForce RTX 3080

GeoSpy.ai

Globe Explorer

即梦Dreamina

Luma Dream Machine

Motionshop

StoryDiffusion

归档

{{userData.name}}已认证

一、MAE产生的背景

二、MAE架构

2.1 MAE整体训练流程

2.2 对patch的mask策略

2.3 encoder和decoder设计

三、参考

OpenAI官方宣布领导层换届，CEO和联合创始人相继离职

深度学习环境配置教程：Python3.6.5、jupyter notebook、TensorFlow2.4.1、NVIDIA GeForce RTX 3080

LLaMA: 一款基础的、拥有65亿参数的大语言模型

了解Transformer架构下的语言大模型

Scalable Self-Attention: 一种新型的自我注意机制

降低ViT模型训练成本的方法和技巧