在本次综述中,我们对视觉基础模型进行了全面回顾,包括结合不同模态(视觉、文本、音频等)的典型架构设计、训练目标(对比、生成)、预训练数据集、微调机制,以及常见的提示模式。

进NLP群—> 加入NLP交流群

论文:Foundational Models Defining a New Era in Vision: A Survey and Outlook

地址:https://arxiv.org/pdf/2307.13721.pdf

项目:https://https://github.com/awaisrauf/Awesome-CV-Foundational-Modelsesome-CV-Foundational-Models

用于观察和推理视觉场景的组成性质的视觉系统是理解我们的世界的基础。现实世界环境中物体及其位置、模糊性和变化之间的复杂关系可以用人类语言更好地描述,自然地受到语法规则和其他模式(例如音频和深度)的控制。

这些模型学会了弥合这些模式之间的差距,并与大规模训练数据相结合,促进测试时的上下文推理、泛化和提示能力。这些模型被称为基础模型。

此类模型的输出可以通过人类提供的提示进行修改,而无需重新训练,例如,通过提供边界框来分割特定对象,通过询问有关图像或视频场景的问题来进行交互式对话,或者通过语言指令来操纵机器人的行为。

在本次调查中,我们对此类新兴基础模型进行了全面回顾,包括结合不同模态(视觉、文本、音频等)的典型架构设计、训练目标(对比、生成)、预训练数据集、微调机制 ,以及常见的提示模式;文本、视觉和异构。

我们讨论计算机视觉基础模型的开放挑战和研究方向,包括评估和基准测试的困难、现实世界理解的差距、上下文理解的局限性、偏见、对抗性攻击的脆弱性和可解释性问题。

我们回顾了该领域的最新发展,系统、全面地涵盖了基础模型的广泛应用。

视觉 领域的同学应该有所体会,获取大量标注数据是一件成本非常高的事。为了应对这个问题,研究者们通过借助无标注数据、图文数据或者多模态数据等,采用对比学习、掩码重建等学习方式预训练得到 视觉 基础 模型 ,用于适应各种下游任务,比如物体检测、语义分割等。在过去一年中,由于LLM、多模态等领域的快速发展,更多 兴的计算机 视觉 基础 模型 被提出。到目前为止,已发布的计算机 视觉 基础 模型 数目已经相当可观,对于 视觉 领域的同学来说,这些 基础 模型 具有非常高的研究价值。 CLIP是一种基于对比学习的多模态 模型 ,与CV中的一些对比学习方法如moco和simclr不同的是,CLIP的训练数据是文本-图像对:一张图像和它对应的文本描述,这里希望通过对比学习, 模型 能够学习到文本-图像对的匹配关系。与其他自动编码器一样,本文的方法有一个编码器,可以提取掩码图像的隐藏表示,然后用于重建掩码区域的原始信号。虽然大多数 基础 模型 都是为了有效地处理各种 视觉 任务的RGB图像而定制的,但在光谱数据方面的研究存在明显的差距,光谱数据为场景理解提供了有价值的信息,特别是在遥感(RS)应用中。 背景近两年 视觉 模型 发展很快,各家公司已经训练出自己的 视觉 模型 ,包括微软的 swin-transformer 系列、Google 的 vit 系列以及 150 亿参数量的 V-MOE 模型 。从paperwithcode榜单上可以看到,目前公有数据集任务榜单,如在 ImageNet 数据集上的分类任务、COCO 数据集上的目标检测与实例分割任务,上述榜单表现 SOTA 的都是大 模型 ,实验结果证明大... 点击下方卡片,关注“CVer”公众号AI/CV重磅干货,第一时间送达点击进入—>CV微信技术交流群转载自:京东探索研究院大规模 视觉 基础 模型 在基于自然图像的 视觉 任务中取得了重大进展。得益于良好的可扩展性和表征能力,基于 视觉 Transformer (Vision Transformer, ViT) 的大规模 视觉 基础 模型 吸引了研究社区的广泛关注,并在多种 视觉 感知任务中广泛应用。然而,在遥感图像感知...