地址:https://zhuanlan.zhihu.com/p/510927638

剑桥大学、腾讯AI Lab、特伦托大学、DeepMind、香港大学新作

Language Models Can See: Plugging Visual Controls in Text Generation

论文:https://arxiv.org/abs/2205.02655

代码:https://github.com/yxuansu/MAGIC

本文提出了一个全新的MAGIC (iMAge-guided text GeneratIon with CLIP)框架。该框架可以使用图片模态的信息指导预训练语言模型完成一系列跨模态生成任务,例如image captioning和visually grounded story generation。与其他方法不同的是,MAGIC框架无需多模态的训练数据,只需利用现成的语言模型(例如GPT-2)和图文匹配模型(例如CLIP)就能够以zero-shot的方式高质量地完成多模态生成任务。此外,不同于使用梯度更新生成模型cache的传统方法,MAGIC框架无需梯度更新,因而具备更高效的推理效率。

研究背景以及目的

借助于日益强大的预训练语言模型,我们已经可以根据文本前缀生成一段流利文本。当前,绝大多数工作的主要研究方向集中于利用文本模态的前缀来生成后续文本的方法。然而,如何有效利用其他模态的信息(例如图片)来指导预训练语言模型生成高质量的文本,仍然是一个待解决的难题。

目前,针对此类问题最常见的解决思路是在收集好的高质量多模态平行数据的基础上,训练多模态的模型来完成特定的跨模态任务。例如,现在我们可以在图文匹配的标注数据集上,通过监督学习的方法训练image captioning模型,从而根据输入图片生成对应的文本描述。

但是,该方法存在标注数据获得困难的弊端,并不适合所有应用场景。为了解决这一难题,许多研究者们提出了一系列弱监督的方法。而这类方法也有其弊端,它们会受到不同多模态任务的特定限制。例如,在image captioning任务中,弱监督的方法需要使用特定的目标检测器,来收集图片内可识别目标的标签信息。然而,当图片中包含目标检测器无法识别的物体(out-of-domain object)时,弱监督方法的有效性就会大打折扣。

为了摆脱对目标检测器的依赖从而真正实现zero-shot跨模态文本生成,ZeroCap[1]提出在推理阶段通过梯度更新的方式修正生成语言模型模型的内部的隐状态,从而使生成的文本描述和图片内容尽可能接近。但是,这一方法也有其弊端,通过多次迭代梯度更新来调整模型的内部隐状态,在当前预训练语言模型参数量越来越大的趋势下,其运行效率会变得越来越低,严重限制了该方法在实际场景中的应用。

本文提出了一个全新的MAGIC框架。MAGIC通过直接插入可控的图文匹配模型分数的方式,使得语言模型在解码过程中选择更接近图片信息的生成结果。这样,语言模型可以在不经过任何跨模态训练的情况下,高质量地解决跨模态生成任务,得到明显优于弱监督模型的文本生成质量。同时,与ZeroCap相比,MAGIC还拥有接近27倍的推理速度提升。

3.1 无监督语言建模

为了适应特定跨模态任务的文本领域,我们在本文中,预先使用了跨模态训练数据集中的文本数据,采取无监督的方式更新语言模型的参数(仅需在1块NVIDIA 1080Ti 上运行不到两个小时),从而使得语言模型更加熟悉该领域的文本分布。具体而言,本文使用MLE损失函数训练语言模型的参数:

此外,SimCTG[2]的最新工作证明了通过引入对比损失来校准模型的语义空间,能够获得质量更高的的语言模型。因此,本文也同时优化如下的对比损失:

其中    是用来校准生成模型表示空间的margin参数,    用来计算token表示之间的余弦相似度。最终,本文将两个损失函数合并,以此来优化文本模态的GPT-2语言模型:

3.2 MAGIC Search

本文提出了MAGIC Search解码算法。MAGIC使用视觉信息指导预训练语言模型的生成过程。具体而言,给定文本前缀    和图片   ,第    步的token选择公式如下:

其中    表示按照语言模型概率分布选择的top-k个候选token。同时,我们借鉴了SimCTG中contrastive search的思路,在token选择指标中引入了model confidence和degeneration penalty项来使得模型选择更合适的token。上述公式中最重要的一项是将视觉控制信息引入到模型的解码过程中的magic score:

其中    是CLIP的image encoder产生的图片表示,    是CLIP的text encoder产生的文本表示。    参数用来调节视觉信息的控制力度。当其值为0时,语言模型的生成过程不再被视觉信息所影响,从而magic search退化为传统的contrastive search。

4.1 Zero-shot Image Captioning

4.1.1 实验设置

本文在MS-COCO和Flickr30k数据集上进行了大量的实验,并选用以下的无监督baseline进行对比:

1. top-k sampling:不基于图片信息,用top-k 解码方法使用语言模型来生成caption

2. nucleus sampling:不基于图片信息,用nucleus解码方法使用语言模型生成caption

3. contrastive search:不基于图片信息,用contrastive search解码方法使用语言模型来生成caption

4. CLIPRe:使用CLIP模型从MS-COCO或Flickr30k的训练数据中检索文本数据

5. ZeroCap:在解码过程中,使用CLIP信息来指导语言模型梯度更新的方法

值得注意的是top-k sampling, nucleus sampling和contrastive search解码方法因为不基于图片信息,所以可看作是文本生成模型在跨模态任务上的性能下界。此外,本文还选取了一批监督和弱监督的方法来进行对比。

对于评价方法,本文采用image captioning中经典的评价指标:BLEU-1, BLEU-4, METEOR, ROUGE-L, CIDEr和SPICE,同时也测试了不同模型的相对解码速率。

4.1.2 MS-COCO和Flickr30k实验结果

如上图所示,本文发现当忽视captions 的信息,只使用语言模型进行生成时效果并不好(Top-k, Nucleus, Contrastive),这说明没有对应的图片信息,只依靠语言模型很难完成这个跨模态的任务。CLIPRe方法效果虽然显著好于Top-k等纯文本解码方法,但仍然弱于当前state-of-the-art的无监督方法,ZeroCap。这是由training set和test set之间的数据差异所造成。这也证明了检索模型在该任务上效果弱于生成模型。

本文MAGIC的生成结果显著优于ZeroCap,展示了MAGIC框架的有效性。并且因为MAGIC完全不依赖于梯度更新,其解码速度比ZeroCap快接近27倍。

4.1.3. 跨领域实验结果

此外,本文还做了跨领域的实验以进一步测试MAGIC的泛化能力。具体而言,本文使用在源领域(例如MS-COCO)上得到的无监督语言模型,在目标领域(例如Flickr30k)的测试集上进行实验。本文在该实验中对比无监督解码方法和CLIPRe。其中CLIPRe的检索数据集仅来自于源领域的训练集,实验结果如下:

从表格中结果可以发现,MAGIC远好于纯文本解码方法和CLIPRe强baseline。

4.1.4. Case Study

我们通过一些例子来定性的对比baseline和我们的方法:

这几个例子显示出MAGIC不仅能够生成非常流利的文本,同时其生成文本中的信息和图片模态的关联性也更强。例如图(a)中,MAGIC可以准确的生成“building”,但是ZeroCap却生成了“school bus”这个无关的结果。此外,图(d)中,虽然ZeroCap生成出了“boatboard”这一相关词汇,但其语句流利度低,并且存在语法错误。相比之下,MAGIC生成的文本在通顺流畅的同时,也与图片显示的内容一致。

4.2 Visually Grounded Story Generation

除了image captioning任务之外,我们还将MAGIC框架拓展到了其他基于视觉的文本生成任务,例如visually grounded story generation。在该任务中,给一个图片和故事标题,模型的任务是生成一个流利有趣并且与图片内容及故事标题一致的故事。

4.2.1 实验设置

本文在ROCStories数据集上进行了实验,并选取以下的文本解码方式作为我们的baseline:(1) Greedy search;(2)Beam search;(3)Top-K sampling;(4)Nucleus sampling;(5)Typical sampling;和(6)Contrastive search。

为了达到给ROCStories数据集中每一个测试样例提供一个图片信息的目的,本文使用CLIP模型从公开的ConceptCaption数据集中检索和故事标题最相关的图片。

为了有效评价模型的效果,本文采用了以下几种评价指标:

1. 自动评价指标:本文采用之前文本生成研究中的一系列评价指标

a. n-gram重复率 (rep-n)

b. 生成文本多样性 (div.)

c. 语义一致性(coh.):生成的故事和标题是否语义一致

d. 图文匹配相关性 (CLIPScore)

e. MAUVE分数

2. 人工评价指标:为了更精准的反映生成故事的质量,五个专业的标注员从以下几个角度对生成故事的质量进行打分(1-5分,1分最差,5分最好)

a. 相关性:生成的故事是否和标题有关

b. 流利度:生成的故事是否流利易懂

c. 信息量:生成的故事是否多样且有趣

d. 故事图片相关性:生成的故事是否和通过标题检索得到的图片语义一致

4.2.2 实验结果

如上图所示,MAGIC在大多数的指标上都达到了最佳的效果,明显优于其他方法。其中rep-n, diversity和MAUVE的最佳结果说明MAGIC生成的故事和人类文本更加接近。并且MAGIC在coherence和图文匹配一致性分数上显著优于其他的方法,说明MAGIC在综合利用了图片和文本标题的信息之后可以生成和标题信息更加相关的故事内容。人工评价的效果也显示MAGIC生成的故事在各个角度上均达到了最好的效果。

4.2.3 Case Study

如上图所示,MAGIC可以有效的生成出和图片有关的信息。在第一个例子中,MAGIC 生成的故事包含了详细的冰淇凌的种类和味道,除了orange的结果稍有差异,其他的文本都完美符合图片中的描述。在第二个例子中,contrastive search生成的结果和故事标题间相关度较差。与之相反,MAGIC生成的内容和图片中的信息及主题高度相关,例如:(1)和朋友们在沙滩;(2)打沙滩排球;(3)比赛持续了两个小时;(4)朋友赢下了比赛。

Reference:

[1] Tewel et al., ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic, arXiv 2022

[2] Su et al., A Contrastive Framework for Neural Text Generation, arXiv 2022

猜您喜欢:

53ca7812bb9d4f625446e16152e22d97.png 戳我,查看GAN的系列专辑~!

一顿午饭外卖,成为CV视觉前沿弄潮儿!

CVPR 2022 | 25+方向、最新50篇GAN论文

ICCV 2021 | 35个主题GAN论文汇总

超110篇!CVPR 2021最全GAN论文梳理

超100篇!CVPR 2020最全GAN论文梳理

拆解组新的GAN:解耦表征MixNMatch

StarGAN第2版:多域多样性图像生成

附下载 | 《可解释的机器学习》中文版

附下载 |《TensorFlow 2.0 深度学习算法实战》

附下载 |《计算机视觉中的数学方法》分享

《基于深度学习的表面缺陷检测方法综述》

《零样本图像分类综述: 十年进展》

《基于深度神经网络的少样本学习综述》

来源:知乎—刘亚辉地址:https://zhuanlan.zhihu.com/p/510927638剑桥大学、腾讯AI Lab、特伦托大学、DeepMind、香港大学新作Language Models Can See: Plugging Visual Controls in Text Generation论文:https://arxiv.org/abs/2205.0265...
Java接口配置 框架 magic -api1. magic 三大 框架 2. magic -api概述2.2 magic -api简介2.2 magic -api特点3. magic -api 框架 搭建3.1 创建数据库3.2 创建springboot项目3.3 引入依赖3.4 application.yml配置3.5 启动类3.6 其他自定义类4. magic 实现验证4.1 magic ui4.2 swagger 1. magic 三大 框架 magic -api 接口快速开发 框架 基于Java的接口快速开发 框架 ,编写接口将通过m
图像 领域的 GPT 模型终于来了!OpenAI 推出了用于 图像 分类的模型 iGPT,该模型 生成 的特征在多个分类数据集上实现了当前 SOTA 性能,并且实现了良好的 图像 补全效果。 机器之心报道,参与:魔王、杜伟、小舟。 无监督和自监督学习,或者无人工标注数据的学习,这些都是 机器学习 领域长期存在的挑战。近期,BERT、GPT-2、RBERTa、T5 等 Transformer 模型以及其他变体在一系列语言任务上实现了最佳性能。然而,在 生成 用于 图像 分类的强特征方面却始终没有出现性能强大的模型。
文本 生成 图像 指的是使用 人工智能 技术将 文本 转换为 图像 的过程,其可以根据给定 文本 生成 符合描述的真实 图像 ,其是多模态 机器学习 的任务之一, 文本 生成 图像 的技术难点主要有两个: - 如何捕捉 文本 图像 之间的复杂关系; - 如何 生成 高质量的 图像
<h3>回答1:</h3><br/> Magic -API是一种基于 机器学习 的API调用 框架 。它使用自然语言处理技术将用户输入转换为API调用的请求,然后使用预 训练 的模型进行API匹配和执行,并将结果返回给用户。 Magic -API包含了两个主要的组件:自然语言处理模型和API服务。自然语言处理模型是基于 深度学习 技术 训练 的模型,可以将自然语言 文本 转换为结构化数据,如JSON格式。API服务则提供了一组API接口,包括API匹配器和API执行器。 当用户输入 文本 时,自然语言处理模型将该 文本 解析为结构化数据。然后,API匹配器会使用该结构化数据进行API匹配。匹配过程通过比较用户请求中的参数和API请求参数之间的相似性实现。最匹配的API将被选择执行。 一旦选择了API,API执行器将使用匹配的API进行调用并将结果发送回用户。如果API调用失败, Magic -API将进行适当的错误处理,并返回适当的错误信息。 Magic -API的优点在于其易用性和灵活性。它为开发人员提供了一种自然语言接口,使普通用户能够轻松地使用现有的API。同时, Magic -API还支持多种编程语言和API协议,如REST和GraphQL。这使得 Magic -API具有广泛的可扩展性和适用性,能够满足不同的需求。 <h3>回答2:</h3><br/> <h3>回答3:</h3><br/>