当人类看到一辆行驶的火车,不仅拥有视觉,还能听到声音、感知距离、感知速度。Meta最新发布的开源模型 ImageBind ,可以跨越六种模式,将赋予AI拥有人类一样的物理感知能力。以下为全文翻译。
当人类从世界上吸收信息时,我们天生就会使用多种感官,例如看到繁忙的街道和听到汽车引擎的声音。今天,我们正在引入一种方法,使机器像人类一样同时、全面、直接地从许多不同形式的信息中学习的能力更近一步——不需要明确的监督(组织和标记原始数据的过程)。我们已经构建并开源了ImageBind
这个人工智能模型,它是第一个能够将来自六种不同模态的信息联系在一起的模型。该模型学习了一个单一的向量空间,或共享表示空间,不仅适用于文本、图像/视频和音频,还适用于记录深度(3D)、热量(红外辐射)和惯性测量单元(IMU)的传感器,这些传感器计算运动和位置。ImageBind
为机器配备了一个全面的理解,将照片中的物体与它们的声音、它们的三维形状、它们的冷暖以及它们的运动方式联系起来。
ImageBind
可以在某些特定模态下表现出比之前单独训练的专业模型更好的性能,正如我们的论文所描述的那样。最重要的是,它通过使机器能够更好地分析许多不同形式的信息来提升人工智能。例如,使用ImageBind
,Meta的Make-A-Scene可以从音频中创建图像,例如基于雨林或熙熙攘攘的市场的声音创建图像。未来还可能包括更准确地识别、连接和调节内容,以及提高创意设计,例如无缝生成更丰富的媒体和创建更广泛的多模式搜索功能。
ImageBind
是Meta
努力创建的多模态人工智能系统的一部分,该系统可以从周围所有可能类型的数据中学习。随着模态数量的增加,ImageBind
为研究人员开启了新世界,研究人员可以尝试开发新的、多种信息结合的整体的系统,例如将3D和IMU传感器结合起来设计或体验沉浸式虚拟世界。ImageBind
还可以提供一种丰富的方式来探索记忆——可以使用文本、音频和图像的组合搜索图片、视频、音频文件或文本消息。
在典型的人工智能系统中,每个相应的模态都有一个特定的嵌入(即可以表示机器学习中数据及其关系的数字向量)。ImageBind
表明,可以创建跨多个模态的联合向量空间,而无需对每个不同的模态组合的数据进行训练。这一点很重要,因为对研究人员来说,不可能创建包含例如来自繁忙城市街道的音频数据和热数据,或者深度数据和海边悬崖的文本描述等样本的数据集。
就像最近在从文本生成图像、视频和音频方面取得了令人兴奋的进展一样(例如Make-A-Scene和Meta的Make-A-Video),ImageBind的多模态能力可以让研究人员使用其他形式的输入查询并检索其他格式的输出。ImageBind
也是朝着建立能够像人类那样全面分析不同种类数据的机器迈出的重要一步。
通过将六种模式的嵌入对准一个共同的空间,ImageBind实现了对不在一起观察的不同类型内容的跨模式检索,增加了来自不同模式的嵌入以自然地组成它们的语义,并通过使用我们的音频嵌入与预训练的DALLE-2解码器与CLIP文本嵌入一起工作来实现音频到图像的生成。
ImageBind
是一个多模态模型,它加入了Meta
最近一系列开源AI工具。其中包括计算机视觉模型,如DINOv2
,这是一种新方法,不需要微调训练高性能计算机视觉模型,以及Segment Anything(SAM),这是一个通用分割模型,可以根据任何用户提示对任何图像中的任何对象进行分割。ImageBind
作为补充这些模型,它专注于多模态表示学习。它试图学习多个模态的单一对齐特征空间,包括但不限于图像和视频。在未来,ImageBind
可以利用DINOv2
的强大视觉特征进一步提高其能力。
通过将内容与图像绑定来学习单一的向量空间
人类有能力只从很少的例子中学习新概念。我们通常可以阅读对某种动物的描述,然后在现实生活中认出它。我们还可以看一张不熟悉的汽车模型的照片,并预测其发动机可能发出的声音。这是因为一个单一的图像实际上可以“绑定”整个感官体验。然而,在人工智能领域,随着模式数量的增加,缺乏多种感官数据会限制标准的多模态学习,而这种学习依赖于成对的数据。理想情况下,一个单一的联合向量空间——其中分布着许多不同种类的数据——可以让一个模型在学习视觉特征的同时学习其他的模式。
以前,为所有模式学习这样一个联合向量空间,需要收集所有可能的配对数据组合——这是一个难以完成的任务。
ImageBind
通过利用最近的大规模视觉语言模型并扩展它们的零样本能力来规避了这个挑战,仅通过使用它们与图像的自然配对,例如视频音频和图像深度数据,来学习单个联合嵌入空间,从而实现了对新模态的扩展。对于四个额外的模态(音频,深度,热,IMU读数),我们使用自然配对的自监督数据。
训练图像文本模型已经得到广泛研究,因为互联网上有大量的图像和共现文本。 ImageBind
利用图像的绑定属性,这意味着它们与各种模态共同出现,并且可以作为连接它们的桥梁,例如使用Web数据将文本链接到图像或使用从带有IMU传感器的可穿戴相机捕获的视频数据将运动链接到视频。
从大规模网络数据中学习的视觉表示可以用作学习不同模态特征的目标。这使得ImageBind
可以对与图像共同出现的任何模态进行对齐,从而自然地对齐这些模态。像热和深度这样的信息与图像具有强烈相关性,更容易对齐;然而像如音频和IMU这样与视觉相关的模态,对齐是一件比较困难的事情。例如婴儿的哭声,可能在很多不同视觉场景中出现。
ImageBind
显示,图像配对数据足以将这六种模态绑定在一起。该模型可以更全面地解释内容,使不同的模态能够“交流”和产生联系,而不必同时观察多种模态的数据。例如,ImageBind
可以将音频和文本关联起来,而不必同时看到它们。这使得其他模型可以“理解”新的模态,而无需进行任何资源密集型的训练。ImageBind
的强大的扩展行为使得该模型能够通过使用其他模态来替代或增强许多AI模型。例如,虽然Make-A-Scene
可以通过使用文本提示生成图像,但ImageBind
可以让它拥有音频声音(例如笑声或雨声)生成图像的能力。
ImageBind的能力优于其他模型
图像对齐的自监督学习表明,我们的模型的性能实际上可以通过使用非常少的训练示例来提高。我们的模型具有全新的能力,或者说是扩展行为——通常在较小的模型中不存在但在较大的模型才有的能力。这种能力包括识别哪些音频与某个图像相匹配、从照片中预测场景的深度。
我们的分析表明,ImageBind
的扩展行为随着图像编码器的强度而改善。换句话说,ImageBind
对齐模态的能力随着视觉模型的强度和大小而增加。这表明更大的视觉模型有益于非视觉任务,例如音频分类,而训练这些模型的好处超出了计算机视觉任务。
在我们的实验中,我们使用了ImageBind
的音频和深度编码器,并将它们与以前在零样本检索以及音频和深度分类任务中的工作进行了比较。
我们发现,ImageBind
特征可以用于少样本音频和深度分类任务,并且可以胜过专门针对这些模态的先前方法。例如,ImageBind
在 ≤四个样本分类的top-1 准确率上,比Meta的自监督AudioMAE
模型(在Audioset上训练)和在音频分类上微调的有监督AudioMAE
模型的准确率提高了约40%。
ImageBind
在跨模态的新兴零样本识别任务中也取得了最新的最佳表现,甚至胜过了最近针对该模态训练的识别概念的模型。
多模态学习的未来
ImageBind
具有使用多种模态的输入查询并在其他模态中检索输出的能力,为创作者展示了新的可能性。想象一下,人们可以拍摄一个海洋日落的视频,并立即添加完美的音频剪辑来增强它;而一张虎斑色的狮子狗的图像可以产生类似狗的文章或深度模型;或者当像Make-A-Video
这样的模型制作一个嘉年华的视频时,ImageBind
可以建议背景噪音来伴随它,创造出沉浸式的体验。
人们甚至可以根据音频对图像中的对象进行分割和识别。这创造了独特的机会,通过将静态图像与音频提示相结合,从静态图像中创建动画。例如,创作者可以将图像与闹钟和公鸡啼叫相结合,并使用啼叫音频提示来分割公鸡或闹钟的声音,以分割闹钟并将两者动画化为视频序列。
虽然我们在目前的研究中探索了六种模式,但我们相信引入新的模式,将尽可能多的感官联系起来——如触摸、语言、嗅觉和大脑fMRI信号——将使以人为本的AI模型更加丰富。
关于多模态学习,还有很多东西需要挖掘。当我们使用更大的模型来训练人工智能系统时,会出现一些新的行为和现象,但我们还没有找到有效的方法来描述和解释这些行为,并且还没有完全理解这些行为在实际应用中的作用。ImageBind
是朝着以严格的方式评估它们并展示图像生成和检索中的新应用迈出的一步。
我们希望研究社区能够探索ImageBind和我们的相关发表论文,以寻找评估视觉模型和开发新应用的新方法。