多模态大模型三个月50篇-ChatPaperDaily14

强化学徒

USTC博士生|和AI一起进化|ChatPaper作者

多模态大模型三个月50篇，这个方向卷爆了。都列举出来，供大家参考阅读。

内容太多了，大家点开目录，可以按照标题选读

Paper:1 2023-05-15 利用伪语言标签的CLIP-VG自适应课程适应CLIP进行视觉定位

1. Title:

CLIP-VG: Self-paced Curriculum Adapting of CLIP via Exploiting Pseudo-Language Labels for Visual Grounding

2. Authors:

Linhui Xiao, Xiaoshan Yang, Fang Peng, Ming Yan, Yaowei Wang, Changsheng Xu

3. Affiliation:

第一作者：中国科学院自动化研究所

4. Keywords:

Visual Grounding, Self-paced Curriculum Adapting, Pseudo-Language Labels, CLIP

5. Paper: https:// arxiv.org/abs/2305.0868 5 Github: https:// github.com/linhuixiao/C LIP-VG

6. Summary :

(1):本文研究的是视觉语言领域中的关键问题之一——视觉定位，即在特定图像中定位由表达式描述的区域。
(2):现有的无监督方法尝试使用与任务无关的伪标签来定位区域，但是伪标签中有很多噪声和语言分类的多样性缺乏。本文提出了一种新方法，利用VLP模型来实现下游定位任务的无监督转移学习。作者提出了CLIP-VG，一种新方法，通过利用伪语言标签来解决VG问题的自适应自适应课程。作者提出了一种有效的模型结构，首先提出了单源和多源课程适应方法，以逐步采样更可靠的跨模态伪标签来获得最佳模型，从而实现隐式知识利用和去噪。本文方法在RefCOCO / + / g数据集上的单源和多源情况下都优于现有的最先进的无监督VG方法Pseudo-Q，甚至优于现有的弱监督方法。
(3):本文提出了一种新方法，利用VLP模型来实现下游定位任务的无监督转移学习。作者提出了CLIP-VG，一种新方法，通过利用伪语言标签来解决VG问题的自适应自适应课程。作者提出了一种有效的模型结构，首先提出了单源和多源课程适应方法，以逐步采样更可靠的跨模态伪标签来获得最佳模型，从而实现隐式知识利用和去噪。
(4):本文方法在RefCOCO / + / g数据集上的单源和多源情况下都优于现有的最先进的无监督VG方法Pseudo-Q，甚至优于现有的弱监督方法。本文方法在无监督设置中取得了显着的改进，并且在完全监督设置中也具有竞争力。

7. 方法详细介绍：

本文提出了一种基于伪语言标签的自适应课程学习方法CLIP-VG，用于解决视觉语言对齐问题。该方法利用预训练的视觉语言模型CLIP和自适应课程学习策略，包括单源自适应和多源自适应两种算法。CLIP-VG模型包括两个编码器和一个Transformer编码器，提取多层特征进行多层次视觉表示感知，并将它们融合到单层大小进行投影。该方法还包括可靠性测量过程，利用在原始伪标签上训练的模型应用交叉模态伪标签质量测量来采样伪标签集，并在自我训练周期中迭代重复此过程。

8. 实验设置：

本文在五个主流数据集RefCOCO、RefCOCO+、RefCOCOg、ReferItGame和Flickr30K Entities上评估了所提出的方法。提供了五个数据集中的训练图像数量。使用与先前工作相同的训练/验证/测试拆分。将图像大小设置为224×224，最大表达长度设置为77。提取图像编码器的[1,4,8,12]层特征以实现多层次表示感知。提供了其他训练细节，如优化器、学习率、批量大小和训练时期。

9. 实验结果和分析：

本文提出的方法在RefCOCO、RefCOCO+、ReferItGame和Flickr30K Entities数据集上均优于现有的无监督和弱监督方法。消融研究表明，SSA和MSA算法、跨源可靠性测量以及多源课程顺序的提出均对性能有所提升。本文还提供了所提出方法的速度和训练/推理成本信息，表明其与现有模型相比具有竞争力。

Paper:2 2023-05-15 模式逼近使得良好的视觉语言提示成为可能

1. Title:

Mode Approximation Makes Good Vision-Language Prompts

2. Authors:

Haixin Wang, Xinlong Yang, Jianlong Chang, Dian Jin, Jinan Sun, Shikun Zhang, Xiao Luo, Qi Tian

3. Affiliation:

Haixin Wang, Xinlong Yang, Jinan Sun, Shikun Zhang, Xiao Luo: 北京大学 Jianlong Chang, Qi Tian: 华为云&AI Dian Jin: 威斯康星大学麦迪逊分校

4. Keywords:

Parameter-efﬁcient transfer learning, multimodal tasks, mode approximation, cross-modal transfer, attention-based architectures

5. Paper:

Paper: https:// arxiv.org/abs/2305.0838 1v1 Github: https:// github.com/WillDreamer/ Aurora

6. Summary:

(1):本文研究背景是大规模模型技术的发展，参数高效的迁移学习（PETL）已经在各个人工智能领域中得到了广泛应用。PETL的核心思想是仅使用少量参数来适应下游任务的模型。最近，一些研究已经将这些技术应用于多模态任务。然而，仍然存在两个关键问题：如何通过轻量级设计进一步降低复杂性，以及如何在极低参数下提高模态之间的对齐度。
(2):过去的方法是将现有的NLP架构与多模态模型相结合，这仅仅是在单模态和多模态分支的骨干网络中插入可学习参数来实现良好的性能。他们的简单设计不能将高效参数传输的本质融入多模态模型中。本文提出了一个优雅的跨模态传输提示框架Aurora来克服这些挑战。首先，我们利用模式逼近来生成少量可训练参数，以实现多模态提示调整，探索预训练模型的低内在维度，仅使用预训练模型的0.05％参数。然后，为了更好地缩小模态差距，我们在极少参数场景下提出了信息上下文增强和门控查询转换模块。
(3):本文提出了一种优雅的跨模态传输提示框架Aurora，以克服现有PETL方法的局限性。我们首先利用模式逼近生成轻量级提示，然后在极少参数场景下提出了信息上下文增强和门控查询转换模块，以更好地缩小模态差距。最后，在六个跨模态下游基准测试中对Aurora进行了彻底评估，结果表明它不仅优于现有技术，而且甚至优于完全微调方法。
(4):本文在六个跨模态任务和两个零样本任务上评估了Aurora，仅使用预训练模型的0.05％可训练参数，取得了与其他PETL方法相比的最新性能。与完全微调相比，Aurora在MSRVTT和VQAv2基准测试上甚至获得了1.8％和0.5％的性能提升，平均仅使用预训练模型的0.05％可训练参数。

7. 方法详细介绍：

本文提出了一种名为Aurora的新型模式逼近方法，通过CANDECOMP/PARAFAC（CP）分解将预训练模型的参数分解为一系列秩为1的张量，以探索嵌入特征中固有的维度。该方法通过初始化三个模式因子U、V和P，利用批次B中所有查询特征（维度为E）作为上下文进行增强，逼近视觉/文本编码器中的自注意力模块和多模态编码器中的交叉注意力模块中的注意力权重。此外，本文还提出了门控查询变换来平衡两种模态在模态对齐期间的贡献。

8. 实验设置：

本文在图像-文本检索数据集MSCOCO和FLICKR30K上进行了实验。Aurora方法在参数数量更少的情况下取得了与其他PETL方法相当的性能。使用recall@K指标评估性能，结果见表1。

9. 实验结果和分析：

本文提出的Aurora方法在六个跨模态基准测试中表现优异，超越了现有技术并甚至超越了完全微调方法。本文还展示了参数分布的可视化分析，结果表明Aurora仅在一个小的局部范围内调整预训练模型参数，但它可以对下游任务产生更好的效果。

Paper:3 2023-05-12 ChatGPT-Like大规模基础模型在预测性维护和健康管理中的应用：调查和路线图

1. Title:

ChatGPT-Like Large-Scale Foundation Models for Prognostics and Health Management: A Survey and Roadmaps

2. Authors:

Yan-Fu Li, Huan Wang, Muxia Sun

3. Affiliation:

清华大学工业工程系，质量与可靠性研究所

4. Keywords:

Prognostics and Health Management, Fault Diagnosis, Large-Scale Foundation Model, Representation Learning

5. Paper: https:// ieeexplore.ieee.org/doc ument/9522387 Github: None

6. Summary :

(1):本文研究的背景是预测性维护和健康管理技术在工业生产和设备维护中的重要性，以及人工智能技术在该领域的应用。
(2):过去的方法主要是基于机器学习的模型，但需要手动进行特征工程，难以应对大规模数据。本文提出的基于大规模基础模型的方法可以自动提取特征，具有更好的适应性和泛化能力。
(3):本文提出了基于大规模基础模型的PHM方法，包括Transformer特征提取、自监督学习的特征表示和多模态数据融合。该方法在PHM领域具有创新性和贡献，可以实现多任务智能决策模型。
(4):本文的方法在PHM领域的多个任务上取得了优异的性能，如故障诊断、异常检测和健康监测等。实验结果表明，该方法可以有效地提高设备的可靠性和生产效率。

7. 方法详细介绍：

本文介绍了多种自监督学习方法，包括掩码语言建模（Masked Language Modeling，MLM）、自回归模型、自编码器、对比学习和基于图像增强的自监督方法。同时，还解释了多模态数据融合的概念和不同的方法，如早期融合、后期融合、注意力融合、异构融合和基于提示的方法。文章强调了自监督学习和多模态数据融合在构建大规模基础模型用于预测维护管理方面的优势。

具体步骤如下： 1. xxx 2. xxx 3. xxx

8. 实验设置：

本文没有提供实验设置的具体信息。

9. 实验结果与分析：

本文没有提供实验结果与分析的具体信息。

Paper:4 2023-05-10 多提示深度分区交叉模态学习

1. Title:

Multi-Prompt with Depth Partitioned Cross-Modal Learning

2. Authors:

Yiqi Wang, Guoxian Da, Zheng Zhu, and Yingjie Tian

3. Affiliation:

Yiqi Wang: 中国科学院大学计算机科学与技术学院 Guoxian Da, Zheng Zhu: PhiGent Robotics Yingjie Tian: 中国科学院大学虚拟经济与数据科学研究中心

4. Keywords:

Vision-Language Pre-trained Models, Prompt Learning, Multi-Prompt, Cross-Modal Learning

5. Paper: https:// arxiv.org/abs/2305.0622 1 Github: None

6. Summary :

(1):本文研究背景是大规模视觉-语言预训练模型在各种下游任务中的应用。
(2):过去的方法通常使用单个提示来描述类别上下文，无法充分捕捉类别的多样属性。本文提出了一种多模态提示技术，将软提示从单个可学习提示扩展到多个提示，以更全面地表示类别上下文。为了克服多提示学习中的平凡解决方案，本文引入了分层多模态提示学习，将可学习提示与不同深度的视觉表示相连接，从而使不同提示能够学习视觉表示的分层上下文深度。本文在三个具有挑战性的任务上评估了方法的有效性：新类别泛化、跨数据集评估和域泛化。实验结果表明，本文方法在11个不同的图像识别数据集上均取得了优异的性能，相比于现有的提示方法，平均提高了7.62个百分点。
(3):本文提出了一种分层多模态提示学习方法，将可学习提示与不同深度的视觉表示相连接，从而使不同提示能够学习视觉表示的分层上下文深度。为了最大化多提示学习的优势，本文结合手动设计的模板和可学习的多提示，提高了方法的泛化能力。本文在11个数据集上进行了广泛的实验，证明了方法在各种few-shot识别任务中的优异性能。
(4):本文方法在新类别泛化、跨数据集评估和域泛化等任务中均取得了优异的性能，相比于现有的提示方法，平均提高了7.62个百分点。

7. 方法详细介绍：

本文提出了一种深度分区的多模态提示学习方法，称为PMPO。该方法将软提示从单个可学习提示扩展到多个提示，可以捕捉类别的多样属性。PMPO将视觉编码器深度划分并将可学习提示连接到分离的视觉深度，使不同的提示可以捕捉视觉表示的分层上下文深度。此外，PMPO将手动设计的模板和可学习的多提示结合起来，以提高方法的泛化能力。该方法在三个具有挑战性的任务上进行了评估：新类别泛化、跨数据集评估和域泛化。

具体步骤如下： 1. 多提示学习：使用一组N个文本提示，每个提示由文本编码器模块中的可训练上下文令牌组成。 2. 跨模态深度分区学习：为每个可学习提示使用线性投影将其映射到不同级别的图像编码器块。最终层的嵌入被映射到使用编码文本嵌入的平均值预测的类概率分布。 3. 框架可以从手动和可学习提示中受益。

8. 实验设置：

本文使用11个图像识别数据集，并为每个数据集随机采样一个16-shot训练集。结果在三个不同的种子运行中进行平均。作者还提供了每个实验所使用的训练策略、骨干架构、提示数量、桥接深度、上下文令牌长度、优化器、学习率、批量大小和时代的详细信息。对于域转移和跨数据集实验，作者采用了CoCoOp的设置，该设置表明较短的上下文长度可以获得更好的性能和更强的域偏移鲁棒性。

9. 实验结果和分析：

PMPO方法在8-shot和16-shot设置下均取得了最先进的性能，分别为76.93% vs. 77.06%和78.55% vs. 79.27%。PMPO在10个跨数据集评估设置中的6个中优于其他方法，在所有11个数据集上的平均表现最佳。此外，PMPO在3个目标数据集上展现出比其他方法更好的域泛化能力。然而，在4-shot设置下，PMPO的性能略低（75.59% vs. 75.90%）。

PMPO方法在6个数据集中的基类上取得了最佳表现，并在与基线方法的比较中在基类上的平均表现最佳。PMPO还提高了所有11个数据集的新类别泛化的平均未见准确性。PMPO在7/11个数据集上优于CLIP，并在Eurosat上展现出8.52%的显著改进。在考虑基类和新类别时，PMPO在9个数据集中取得了最佳的调和平均值，并获得了适应各种任务的有效性和鲁棒性的最高平均表现。

Paper:5 2023-05-05 Structure-CLIP：利用结构知识增强多模态语言表示

1. Title:

Structure-CLIP: Enhance Multi-modal Language Representations with Structure Knowledge

2. Authors:

Yufeng Huang, Jiji Tang, Zhuo Chen, Rongsheng Zhang, Xinfeng Zhang, Weijie Chen, Zeng Zhao, Tangjie Lv, Zhipeng Hu, Wen Zhang

3. Affiliation:

Yufeng Huang: 华中科技大学 (Huazhong University of Science and Technology)

4. Keywords:

Structure-CLIP, Detailed Semantics, Scene Graph, Contrastive Learning, Multi-modal Learning

5. Paper: https:// arxiv.org/abs/2305.0615 2 Github: None

6. Summary :

(1):本文研究的背景是现有的多模态模型在需要详细语义理解的图像-文本匹配任务上表现不佳。
(2):过去的方法没有充分利用句子中存在的结构知识来增强多模态语言表示，导致性能不佳。本文提出了一种新的方法，通过使用场景图来强调文本中的细节语义，并充分探索细粒度语义之间的结构化知识，从而提高多模态语言表示的细粒度语义表示能力。
(3):本文提出了一种名为Structure-CLIP的端到端框架，该框架利用场景图来增强细粒度语义表示。具体来说，我们使用场景图来更加关注文本中的细节语义学习，并充分利用场景图的知识增强框架，以充分利用结构化知识的表示。为了验证我们提出的方法的有效性，我们使用上述方法对模型进行了预训练，并在不同的下游任务上进行了实验。数值结果表明，Structure-CLIP在VG-Attribution和VG-Relation数据集上通常可以实现最先进的性能。广泛的实验表明，其组件是有效的，其预测是可解释的，证明了我们提出的方法可以很好地增强细节语义表示。
(4):本文的方法在VG-Attribution和VG-Relation数据集上实现了最先进的性能，支持了他们的目标。

7. 方法详细介绍：

本文提出了一种名为Structure-CLIP的端到端框架，旨在通过结构知识增强多模态语义表示。该方法利用场景图来增强细粒度语义表示，通过生成具有类似句子但不同细节语义的负样本来实现。模型通过对正负样本进行对比学习，学习多模态数据中细粒度语义的重要性。此外，该框架利用场景图从文本中提取结构化信息作为知识，以增强模型捕捉细节语义的能力。该方法包括通过场景图进行硬负采样和利用Transformer从三元组中捕捉细节语义和结构化知识的知识增强结构化框架。

具体步骤如下： 1. 将输入的句子和图像转换为三元组形式，其中关系连接词“is”被添加到句子中以将其视为三元组。 2. 使用Transformer层对场景图进行编码，将一组三元组作为输入并输出每个元素的表示，这些表示可以用作结构化知识嵌入。 3. 通过Transformer结构编码模块获取文本知识嵌入。 4. 通过对比学习使用正负样本训练模型，其中正样本是正确的图像-文本对，负样本是错误的图像-文本对或正确的图像-错误的文本对。 5. 最终损失函数由hinge loss和InfoNCE loss组成，记为Lfinal。

8. 实验设置：

本文在一台NVIDIA A100 GPU上使用Pytorch框架进行实验。视觉编码器使用CLIP的图像编码器，文本方面包括全局和结构编码。结构化知识特征由一个6层Transformer实现，该Transformer由BERT-base初始化。模型使用批量大小为128的小批量AdamW优化器进行10个epoch的训练，权重衰减为0.1。学习率初始化为2e-6。知识权重为0.2。

9. 实验结果和分析：

本文在Visual Genome Relation和Visual Genome Attribution两个数据集上进行了实验，同时在MSCOCO数据集上进行了交叉模态检索评估。结果表明，Structure-CLIP方法在VG-Attribution和VG-Relation数据集上表现优异，经常达到最先进的水平。在图像到文本检索和文本到图像检索中，Structure-CLIP方法的Recall@1、Recall@5和Recall@10均优于基线模型。知识权重为0.2时，模型表现最佳。此外，本文还进行了消融实验，证明了模型中硬负采样和知识Transformer模块的有效性。

Paper:6 2023-05-11 InternGPT：通过与ChatGPT Beyond Language交互解决视觉中心任务

1. Title:

InternGPT: Solving Vision-Centric Tasks by Interacting with ChatGPT Beyond Language

2. Authors:

Zhaoyang Liu, Yinan He, Wenhai Wang, Weiyun Wang, Yi Wang, Shoufa Chen, Qinglong Zhang, Yang Yang, Qingyun Li, Jiashuo Yu, Kunchang Li, Zhe Chen, Xue Yang, Xizhou Zhu, Yali Wang, Limin Wang, Ping Luo, Jifeng Dai, Yu Qiao

3. Affiliation:

上海人工智能实验室

4. Keywords:

Interactive visual framework, pointing instructions, language understanding, vision-centric tasks, large language models

5. Paper: https:// arxiv.org/abs/2305.0566 2 Github: https:// github.com/OpenGVLab/In ternGPT

6. Summary :

(1):本文的研究背景是视觉中心任务的解决方法。
(2):过去的方法是使用特定的视觉基础模型，但这种方法受到标记数据的可用性和质量以及视觉场景的多样性的限制。本文提出的方法是将ChatGPT等具有规划和推理能力的聊天机器人与指向性动作相结合，以直接操作屏幕上的图像或视频。与现有的纯语言交互系统不同，本文的方法显著提高了用户和聊天机器人之间的交流效率，特别是在涉及多个对象的复杂视觉场景中。本文提出的方法是创新性的，有很好的动机。
(3):本文提出的研究方法是将指向性动作与语言指令相结合，以执行复杂的视觉中心任务。它由三个主要组件组成：处理图像或视频上指向性动作的感知单元、具有辅助控制机制的LLM控制器、以及集成各种在线模型和其他应用程序的开放式工具包。本文的方法在复杂的视觉任务中实现了更高的准确性和效率，包括准确的交互式图像或视频编辑、理解、问答、视觉内容创建等。
(4):本文的方法在复杂的视觉任务中实现了更高的准确性和效率，特别是在涉及多个对象的场景中。本文的用户调查表明，将指向性动作与语言指令相结合可以显著提高工作效率。本文的方法是开放性基线，将继续更新以实现更好的结果。

7. 方法详细介绍：

本文介绍了一种交互式视觉框架iGPT，它将聊天机器人与非语言指令（如指向性动作）相结合，用于执行视觉中心任务。iGPT由三个主要组件组成：感知单元、LLM控制器和开放式工具包。感知单元处理图像或视频上的指向性指令，LLM控制器具有辅助控制机制，可以准确解析语言指令，开放式工具包集成了各种在线模型和其他应用程序。iGPT平衡了指向性和语言指令的重要性，并使用感知单元和LLM控制器协调和执行工具包中的应用程序，以完成复杂的视觉中心任务。此外，使用名为Husky的大规模视觉语言模型进行高质量的多模态对话，包括图像字幕和视觉问答。

8. 实验设置：

本文未提供具体的实验设置。

9. 实验结果和分析：

本文未提供具体的实验结果和分析。

Paper:7 2023-05-12 SUR-adapter：利用大型语言模型增强预训练扩散模型的文本到图像生成能力

1. Title:

SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with Large Language Models

2. Authors:

Shanshan Zhong, Zhongzhan Huang, Wushao Wen, Jinghui Qin, Liang Lin

3. Affiliation:

中山大学

4. Keywords:

diffusion model, large language model, multimodal image generation, adapter, knowledge distillation

5. Paper: https:// arxiv.org/abs/2305.0518 9 Github: https:// github.com/Qrange-group /SUR-adapter

6. Summary :

(1):本文研究背景是多模态文本到图像生成技术的发展，目前的扩散模型在输入简洁的叙述性文本时，语义理解和常识推理能力有限，导致生成的图像质量较低。
(2):过去的方法需要复杂的基于关键词的文本提示，或者其他形式的文本提示，难以直观地通过简洁的叙述性文本控制扩散模型。本文提出了一种简单而有效的参数节约的微调方法，称为语义理解和推理适配器（SUR-adapter），以提高扩散模型对叙述性提示的容量。本文的方法通过对大型语言模型（LLMs）的知识蒸馏，将语义表示与复杂提示对齐，使其能够获得强大的语义理解和推理能力，以构建用于文本到图像生成的高质量文本语义表示。本文的方法可以使扩散模型更易于使用，具有更好的用户体验，有望进一步推动用户友好的文本到图像生成模型的发展，弥合简洁的叙述性提示和复杂的基于关键词的提示之间的语义差距。
(3):本文提出了一种简单而有效的参数节约的微调方法，称为语义理解和推理适配器（SUR-adapter），以提高扩散模型对叙述性提示的容量。本文的方法通过对大型语言模型（LLMs）的知识蒸馏，将语义表示与复杂提示对齐，使其能够获得强大的语义理解和推理能力，以构建用于文本到图像生成的高质量文本语义表示。
(4):本文的方法在多个LLMs和流行的预训练扩散模型中进行了实验，证明了其在启用扩散模型理解和推理自然语言的能力方面的有效性，而不会降低图像质量。本文的方法可以使扩散模型更易于使用，具有更好的用户体验，有望进一步推动用户友好的文本到图像生成模型的发展，弥合简洁的叙述性提示和复杂的基于关键词的提示之间的语义差距。

7. 方法详细介绍：

本文提出了一种名为“语义理解和推理适配器”（SUR-adapter）的fine-tuning方法，用于控制文本到图像扩散模型。该方法包括收集和注释一个新的数据集SURD，其中包含超过57,000个语义纠正的多模态样本。将叙述性提示的语义表示与复杂提示对齐，并通过知识蒸馏将大型语言模型（LLM）的知识转移到SUR-adapter中，以获取强大的语义理解和推理能力，用于文本到图像生成。该方法的有效性通过集成多个LLM和流行的预训练扩散模型来证明。

具体步骤如下： 1.冻结预训练扩散模型的所有可学习参数。 2.添加两个可训练的神经网络，一个全连接网络（FCN）和一个带有可学习参数的适配器。 3.适配器由三个可学习变换组成，使用全连接神经网络或Transformer实现。 4.使用一个损失函数，将LLM语义信息与简单提示之间的维度对齐，进行知识蒸馏。 5.最后，通过可学习变换将适配器的输出转换为具有LLM语义能力的输出。

8. 实验设置：

本文使用COCA数据集进行实验，使用单个NVIDIA V100 GPU进行训练。作者集成了多个LLM和流行的预训练扩散模型，以评估所提出的SUR-adapter方法的有效性。

9. 实验结果和分析：

本文的实验结果表明，所提出的SUR-adapter方法显著提高了使用简单叙述性提示的图像生成质量。该方法在COCO数据集上实现了最先进的性能，在定量指标和视觉质量方面均优于现有方法。该方法还展示了进一步推进用户友好的文本到图像生成模型发展的潜力，通过弥合简单叙述性提示和复杂基于关键词的提示之间的语义差距。

Paper:8 2023-05-09 将多模态视为外语，通过引导高级大型语言模型实现多模态能力

1. Title:

Bootstrapping Advanced Large Language Models by Treating Multi-Modalities as Foreign Languages

2. Authors:

Feilong Chen, Minglun Han, Haozhi Zhao, Qingyang Zhang, Jing Shi, Shuang Xu, Bo Xu

3. Affiliation:

中国科学院自动化研究所

4. Keywords:

Large language models, Multimodal language models, X-LLM, X2L interfaces, Advanced language abilities

5. Paper: https:// arxiv.org/abs/2305.0416 0 Github: https:// x-llm.github.io/

6. Summary :

(1):本文研究背景是多模态语言模型的快速发展，以及GPT-4的出现，该模型展示了非凡的多模态能力，但其模型结构和训练策略不为人知。
(2):过去的方法主要是使用图像特征和语言模型进行预训练，但是这些方法存在一些问题，如无法处理多模态数据，缺乏对多模态数据的理解能力等。本文提出了一种新的方法，将多模态数据转换为外语，并将其输入到大型语言模型中，从而赋予语言模型多模态能力。
(3):本文提出的方法是X-LLM，它使用X2L接口将多个单模态编码器和一个冻结的LLM对齐，将多模态信息转换为外语，并将其输入到大型语言模型中。X-LLM的训练包括三个阶段：转换多模态信息、将单模态编码器与LLM对齐、将所有单模态编码器通过X2L接口与LLM对齐。本文的创新点在于使用X2L接口将多模态数据转换为外语，从而使语言模型具有多模态能力。
(4):本文在多模态指令跟随数据集上进行了实验，结果表明X-LLM在多模态任务上表现出色，有时甚至能够展现出GPT-4的多模态行为。与GPT-4相比，X-LLM在合成多模态指令跟随数据集上的得分相对提高了84.5%。此外，本文还在ASR和多模态ASR上进行了定量测试，旨在推动基于LLM的语音识别时代的到来。

7. 方法详细介绍：

本文提出了一种名为X-LLM的方法，它将多模态信息（如图像、语音和视频）通过X2L接口转换为外语，并输入到大型语言模型(ChatGLM)中。X-LLM框架通过X2L接口将多个冻结的单模态编码器和一个冻结的LLM进行对齐。X-LLM的训练分为三个阶段：(1)转换多模态信息，(2)将X2L表示与LLM对齐，(3)集成多个模态。在第一阶段，每个X2L接口分别训练以与其各自的单模态编码器对齐，将多模态信息转换为语言。在第二阶段，单模态编码器通过X2L接口独立地与LLM对齐。在第三阶段，所有单模态编码器通过X2L接口与LLM对齐，将多模态能力集成到LLM中。

8. 实验设置：

本文使用LLaVA-test数据集评估了X-LLM模型在视觉输入上的性能，该数据集包含来自COCO验证集的30个随机选择的图像，每个图像都有三种类型的问题（对话、详细描述和复杂推理）。本文还在AISHELL-2和VSDial-CN数据集上评估了ASR和多模态ASR的性能。

9. 实验结果与分析：

X-LLM模型在LLaVA-test数据集上的性能达到了84.5%，接近于GPT-4。X-LLM在对话和详细描述方面优于LLaVA，但在复杂推理方面不如LLaVA。本文还将X-LLM与基于CIF的模型进行了比较，并表明X-LLM的语音识别性能弱于CIF-based Model。然而，在第三阶段使用2k个与语音识别相关的指令对X-LLM进行微调后，X-LLM的多模态语音识别误差率降低了。

Paper:9 2023-05-05 Otter: 一种具有上下文指令调整的多模态模型

1. Title:

Otter: A Multi-Modal Model with In-Context Instruction Tuning

2. Authors:

Bo Li, Yuanhan Zhang, Liangyu Chen, Jinghao Wang, Jingkang Yang, Ziwei Liu

3. Affiliation:

新加坡南洋理工大学S-Lab

4. Keywords:

Large language models, multi-modal models, instruction tuning, in-context learning, natural language processing

5. Paper: https:// arxiv.org/abs/2305.0372 6 Github: https:// github.com/Luodian/Otte r

6. Summary :

(1):本文研究背景是大型语言模型和多模态模型在各种任务中的普适能力，以及指令调整对于提高模型性能的重要性。
(2):过去的方法包括使用图像-文本数据对进行对齐，但这种方法依赖于特定任务的数据集。本文提出了一种基于Flamingo模型的多模态模型，通过在上下文中调整指令来提高模型性能。本文的方法在构建MIMIC-IT数据集方面进行了创新，该数据集包括指令-图像-答案三元组及其上下文示例。本文的方法在OpenFlamingo的基础上进行了优化，使其更易于研究人员使用。
(3):本文提出了Otter模型，它是一种基于OpenFlamingo的多模态模型，通过在上下文中调整指令来提高模型性能。Otter模型在MIMIC-IT数据集上进行了训练，展示了比OpenFlamingo更好的指令跟随能力和上下文学习能力。本文的方法在工程实现方面进行了优化，使其更易于研究人员使用。
(4):本文的方法在指令跟随和上下文学习方面取得了良好的性能，支持其在多模态模型领域的研究和发展。

7. 方法详细介绍：

本文提出了一种名为MIMIC-IT的数据集，用于增强OpenFlamingo的指令理解能力，同时保持其上下文学习能力。MIMIC-IT数据集由图像-指令-答案三元组组成，每个三元组都有其上下文示例。作者提出了Otter模型，它是一种多模态模型，具有基于OpenFlamingo的上下文指令调整能力。Otter模型使用交叉门控注意力层连接视觉和语言信息，并在上下文示例之间建立注意力。在训练期间，视觉编码器和语言解码器被冻结。作者还优化了OpenFlamingo的实现，将所需的训练资源减少到4×RTX3090 GPU，并将其集成到Huggingface Transformers中以简化训练和推理。

8. 实验设置：

本文将Otter模型集成到Hugging Face Transformers中，并使用Hugging Face Accelerator进行训练，该加速器可以自动将模型权重映射到不同的GPU设备，并将溢出的权重卸载到CPU或磁盘上。模型在4×RTX-3090 GPU上进行训练，每个GPU具有24GB内存。本文还提供了Fully Sharded Data Parallel（FSDP）和DeepSpeed的支持，以实现更高的训练效率和更少的内存消耗。

9. 实验结果和分析：

本文展示了Otter模型遵循指令和学习执行新指令的能力，并提供了Otter模型更详细地描述图像和更准确地遵循用户指令的示例。本文还展示了一个例子，Otter模型能够展示对场景的更深入理解，并应用相关的常识知识来回答给定的问题。作者还探讨了语言幻觉问题，并提出在训练数据中引入负面例子来解决这个问题。作者计划在未来探索更有效的训练模式和更多的模态集成。

Paper:10 2023-05-05 DualCross：用于单目BEV感知的跨模态跨域适应

1. Title:

DualCross: Cross-Modality Cross-Domain Adaptation for Monocular BEV Perception

2. Authors:

Yunze Man, Liang-Yan Gui, Yu-Xiong Wang

3. Affiliation:

Yunze Man: UIUC (伊利诺伊大学香槟分校) Liang-Yan Gui: UIUC (伊利诺伊大学香槟分校) Yu-Xiong Wang: UIUC (伊利诺伊大学香槟分校)

4. Keywords:

Cross-Modality, Cross-Domain, Monocular BEV Perception, LiDAR, Knowledge Distillation

5. Paper: https:// arxiv.org/abs/2305.0372 4 Github: https:// yunzeman.github.io/Dual Cross/

6. Summary :

(1):本文研究了自动驾驶中的两个关键问题：域间差异和多模态感知。现有的方法只关注其中一个问题，忽略了现实场景中普遍存在的域间和模态间的转移。因此，本文提出了DualCross，一种跨模态跨域适应框架，以促进更强大的单目鸟瞰图（BEV）感知模型的学习，该模型在训练阶段从一个域中的LiDAR传感器中转移点云知识到不同域中的仅相机测试场景中。
(2):现有的方法要么假设训练和测试阶段之间的模态固定，要么假设域之间的一致性。然而，同时存在域和模态转移会带来更大的挑战。因此，本文提出了一种新的方法，使用LiDAR数据来帮助仅相机模型进行3D推断。本文的方法通过知识蒸馏和对抗学习来解决域间和模态间的转移问题，从而实现更强大的单目BEV感知模型。
(3):本文提出了一种新的跨模态跨域适应框架，该框架利用LiDAR数据来帮助相机模型进行3D推断。该框架包括三个关键组件：LiDAR-Teacher、Camera-Student和Feature Discriminator。LiDAR-Teacher通过知识蒸馏来帮助Camera-Student学习更好的3D表示。Feature Discriminator用于对抗学习，以使Camera-Student在源域和目标域中学习到的特征相对一致。本文的方法在多个数据集上进行了测试，结果表明其在不同域和模态转移的情况下均取得了最先进的性能。
(4):本文的方法在单目BEV感知任务上取得了最先进的性能，能够在更复杂、更不寻常甚至是未知的环境中可靠地工作。本文的方法通过知识蒸馏和对抗学习来解决域间和模态间的转移问题，从而实现更强大的单目BEV感知模型。

7. 方法详细介绍：

本文提出了一种名为DualCross的方法，用于单目鸟瞰图（BEV）感知中的跨模态跨域适应。该方法包括三个主要组件：用于3D深度估计和BEV投影的骨干网络、LiDAR-Teacher和Camera-Student知识蒸馏模型以及对齐源域和目标域学习的对抗性学习。LiDAR-Teacher从LiDAR点云中提取3D知识，以帮助Camera-Student学习更好的3D表示。特征鉴别器在多个层次上设计，以确保有效的知识转移。具体步骤包括： 1. 使用EfficientNet预训练的ImageNet作为图像编码器骨干网络，使用ResNet-18作为BEV解码器骨干网络。 2. 使用Adam优化器进行端到端训练，学习率为0.001，权重衰减为1e-7，对于教师模型进行50K步训练，对于学生模型进行200K步训练。 3. 在训练过程中使用PyTorch框架实现，使用水平翻转、随机裁剪、旋转和颜色抖动增强。 4. 使用交并比（IoU）对车辆、可行驶道路和车道标记类别进行性能评估。

8. 实验设置：

本文在两个大型数据集nuScenes和Lyft上构建了四个独特的域漂移设置进行评估。域漂移设置包括白天到夜晚、城市到城市、干燥到雨天和数据集到数据集。假设源具有相机和LiDAR传感器的访问权限，而目标仅具有相机。使用nuScenes数据集提供的六个相机，并考虑以自车为中心的100米×100米范围进行输出。

9. 实验结果与分析：

DualCross模型在干燥到雨天、数据集到数据集和城市到城市适应设置中均取得了最佳性能。该模型提供了更清晰的道路边界和车道标记，并准确预测了车辆和道路的深度和大小。所提出的组件，包括广泛的数据增强、对抗性鉴别器和LiDAR-Teacher，都对最终性能做出了贡献。当更密集的LiDAR可用时，模型的性能更高。所提出的渐进式学习机制有效地解决了混合域差异情况带来的挑战。DualCross在与基线相比具有高效的推理时间的情况下实现了出色的感知结果。

Paper:11 2023-05-05 Cola：如何将视觉-语言模型适应于组合具有属性的本地化对象？

1. Title:

Cola: How to adapt vision-language models to Compose Objects Localized with Attributes?

2. Authors:

Arijit Ray, Filip Radenovic, Abhimanyu Dubey, Bryan A. Plummer, Ranjay Krishna, Kate Saenko

3. Affiliation:

Boston University, 美国波士顿大学
Meta AI (FAIR), 美国Facebook人工智能研究院
University of Washington, 美国华盛顿大学

4. Keywords:

Compositionality, Vision-Language Models, Object Localization, Attribute Binding, Fine-tuning

5. Paper: https:// arxiv.org/abs/2305.0368 9 Github: None

6. Summary:

(1):本文研究了大型视觉-语言模型在组合对象本地化属性方面的能力，探索了如何通过微调预训练模型来实现组合推理。作者提出了Cola基准测试集，用于评估模型在组合对象本地化属性方面的性能。
(2):过去的方法主要集中在关系和场景图上，而本文则专注于属性-对象绑定，因为在许多应用中，找到具有正确属性的对象至关重要。作者发现现有的视觉-语言模型仍然难以表示对象和属性之间的组合关系，而且容易将属性分散到干扰对象上。本文提出了一种轻量级的多模态适配器，可以同时关注预训练模型生成的图像和语言特征，从而提高模型的组合推理能力。
(3):本文提出了6种微调策略，使用3个微调数据集和2个测试数据集（Cola和CREPE）在2个经典的视觉-语言模型上进行了实验。最优微调策略是一种轻量级的多模态适配器，可以同时关注图像和语言特征，从而将CLIP模型的性能提高到与FLAVA模型相当的水平。这种方法比常见的策略（如提示/微调或调整相同数量的单模态层）更有效。
(4):本文的方法在Cola基准测试集上取得了很好的性能，证明了其在组合对象本地化属性方面的有效性。作者认为，虽然预训练表示可能不具有组合性，但可以通过适当的微调策略来实现组合推理。

7. 方法详细介绍：

本文提出了一种多模态适配器（MM-Adapter）方法，用于在预训练的视觉语言模型中改善属性和对象的组合绑定。该方法包括以下步骤： 1. 在预训练的视觉语言模型上进行微调，以适应组合查询任务。 2. 在微调后的模型上添加一个轻量级的多模态适配器，该适配器同时关注预训练模型生成的图像和语言特征。 3. 使用多模态适配器对组合查询进行训练和评估。

8. 实验设置：

本文使用三个数据集（GQA、CLEVR和PACO）和两个测试平台（Cola和CREPE）来评估模型。对于单个对象查询，使用GQA、CLEVR和PACO数据集中的对象和属性注释。对于多对象查询，使用基于Visual Genome的多对象，并使用人类注释清理验证集。每个数据集都有一个单独的训练集、一个用于选择超参数的验证集和一个用于报告数字的测试集。

9. 实验结果和分析：

本文的实验结果表明，MM-Adapter方法优于其他方法，特别是在CLEVR和PACO等详细注释的数据集上。MM-Adapter在未见过的类别上表现更好。本文还表明，使用MM-Adapter的CLIP模型与更大的FLAVA模型的性能相当。在多对象查询中，MM-Adapter进一步提高了Cola的性能，同时保持了CREPE的性能。本文还探讨了将单个对象标题与多个对象标题相结合以及硬对比批次和随机批次之间的差异的影响。

Paper:12 2023-05-05 下一代手术导航：多视角无标记手术器械6DoF姿态估计

1. Title:

Next-generation Surgical Navigation: Multi-view Marker-less 6DoF Pose Estimation of Surgical Instruments

2. Authors:

Jonas Hein, Nicola Cavalcanti, Daniel Suter, Lukas Zingg, Fabio Carrillo, Mazda Farshad, Marc Pollefeys, Nassir Navab, Philipp F¨urnstahl

3. Affiliation:

第一作者：Research in Orthopedic Computer Science, Balgrist University Hospital, University of Zurich, Switzerland

4. Keywords:

Object Pose Estimation, Multi-view, RGB-D Video Dataset, Surgical Instruments, Deep Learning

5. Paper:

Paper: https:// arxiv.org/abs/2305.0353 5v1 Github: None

6. Summary :

(1):本文研究背景是计算机视觉在手术领域的应用，特别是在手术导航中，如何用纯图像的6DoF姿态估计替代基于标记的跟踪系统。
(2):过去的方法主要是基于标记的跟踪系统，但是由于其存在的各种限制，如对遮挡的鲁棒性不足和工作范围小等，使其难以融入现有的手术工作流程。最近的方法是基于光学姿态估计，但是其精度还不足以满足手术导航的要求。本文提出了一种高保真的无标记光学跟踪系统，该系统由多视角相机组成，包括静态和移动相机，并使用专用的同步和数据融合方法收集了大规模的RGB-D视频数据集。本文将不同的最新姿态估计方法集成到深度学习管道中，并在多个相机配置上进行了评估。最佳模型对于手术钻头的平均位置和方向误差为1.3毫米和1.0°，对于螺丝刀为3.8毫米和5.2°。这些结果显著优于文献中相关方法，并接近临床级精度，表明无标记手术器械跟踪正在成为现有基于标记的系统的可行替代方案。
(3):本文提出了一种无标记光学跟踪系统，由多视角相机组成，包括静态和移动相机，并使用专用的同步和数据融合方法收集了大规模的RGB-D视频数据集。本文将不同的最新姿态估计方法集成到深度学习管道中，并在多个相机配置上进行了评估。最佳模型对于手术钻头的平均位置和方向误差为1.3毫米和1.0°，对于螺丝刀为3.8毫米和5.2°。这些结果显著优于文献中相关方法，并接近临床级精度，表明无标记手术器械跟踪正在成为现有基于标记的系统的可行替代方案。
(4):本文的方法在手术导航中实现了高精度的无标记手术器械跟踪，对于手术钻头的平均位置和方向误差为1.3毫米和1.0°，对于螺丝刀为3.8毫米和5.2°。这些结果显著优于文献中相关方法，并接近临床级精度，表明无标记手术器械跟踪正在成为现有基于标记的系统的可行替代方案。

7. 方法详细介绍：

本文提出了一种基于多视角的无标记六自由度（6DoF）手术器械跟踪系统。该系统由多个静态和移动相机组成，包括Azure Kinect相机和HoloLens 2设备。通过自行设计的多模态标定板和空间-时间标定参数的联合优化，实现了相机外参和同步的精确校准。该系统采用深度学习方法进行6DoF姿态估计，使用大规模多视角RGB-D视频数据集进行训练。具体步骤包括： 1. 数据采集：使用多相机系统在模拟手术室中进行脊柱椎弓根螺钉置入手术，并使用FusionTrack 500标记跟踪系统跟踪手术器械和HoloLens 2设备，生成真实姿态数据。 2. 相机标定：使用自行设计的多模态标定板进行相机内参标定，使用联合优化的方法进行相机外参和同步标定。 3. 姿态估计：使用深度学习方法进行6DoF姿态估计，包括特征提取、姿态回归和后处理等步骤。 4. 姿态融合：使用空间-时间数据融合方法将多个视角的姿态估计结果进行融合，得到更准确的姿态估计结果。

8. 实验设置：

本文在尸体上进行了脊柱椎弓根螺钉置入手术的实验评估。使用了四个Azure Kinect相机固定在手术区域周围，一个Azure Kinect相机从手术台上方拍摄鸟瞰图，以及两个HoloLens 2设备分别拍摄手术医生和助手的视角。

9. 实验结果与分析：

本文提出的跟踪系统在精度上接近临床级别，手术钻的平均位置和方向误差为1.3毫米和1.0度，螺丝刀的平均位置和方向误差为3.8毫米和5.2度。使用多视角进行姿态估计可以获得比单视角更高的精度，相机视野越大，精度越高。相比于静态相机，HoloLens 2设备由于视野更小和运动模糊等原因表现较差，但在手术室实际场景中，HoloLens 2设备由于不易被遮挡，可能会获得更好的跟踪效果。由于跟踪器假设手术器械完全刚性，因此噪声较大的边界框估计可能会降低姿态估计的精度。未来需要进一步研究如何提高姿态估计的精度和鲁棒性，特别是在使用少量相机或移动相机的情况下。

Paper:13 2023-05-05 FM-ViT：用于面部反欺骗的灵活模态视觉Transformer

1. Title:

FM-ViT: Flexible Modal Vision Transformers for Face Anti-Spooﬁng

2. Authors:

Ajian Liu, Zichang Tan, Zitong Yu, Chenxu Zhao, Jun Wan, Yanyan Liang, Zhen Lei, Du Zhang, Stan Z. Li, Guodong Guo

3. Affiliation:

Ajian Liu, Jun Wan and Zhen Lei are with the State Key Laboratory of Multimodal Artificial Intelligence Systems (MAIS), Institute of Automation, Chinese Academy of Sciences (CASIA). Beijing, China.

4. Keywords:

Face anti-spoofing, Flexible-modal testing, Vision transformer, Mutual-attention, Fusion-attention.

5. Paper:

https:// arxiv.org/abs/2305.0327 7v1 Github: None

6. Summary:

(1):本文研究的是面部反欺骗（FAS）任务，旨在保护面部识别系统免受各种攻击。由于攻击手段的不断升级，传统的单模态和多模态方法已经不能满足实际需求，因此需要一种新的方法来提高FAS系统的鲁棒性。
(2):传统的多模态方法需要提供与训练输入一致的模态，这严重限制了部署场景。而基于卷积神经网络（CNN）的模型在高保真度数据集上的性能越来越受限。本文提出了一种基于Transformer的框架，名为Flexible Modal Vision Transformer（FM-ViT），用于面部反欺骗，以灵活地针对任何单模态攻击场景，并利用可用的多模态数据。具体来说，FM-ViT保留了每个模态的特定分支，以捕获不同的模态信息，并引入了Cross-Modal Transformer Block（CMTB），其中包括两个级联的注意力，即Multi-headed Mutual-Attention（MMA）和Fusion-Attention（MFA），以引导每个模态分支从信息丰富的补丁令牌中挖掘潜在特征，并通过丰富自己的CLS令牌的模态信息来学习模态不可知的活体特征。
(3):本文提出了一种新的Flexible Modal Vision Transformer（FM-ViT）框架，用于面部反欺骗任务。该框架利用Transformer的优势，通过引入Cross-Modal Transformer Block（CMTB）来提高单模态系统的性能，并利用可用的多模态数据。CMTB包括两个级联的注意力，即Multi-headed Mutual-Attention（MMA）和Fusion-Attention（MFA），以引导每个模态分支从信息丰富的补丁令牌中挖掘潜在特征，并通过丰富自己的CLS令牌的模态信息来学习模态不可知的活体特征。
(4):在多个数据集上的实验表明，FM-ViT可以灵活地评估不同的模态样本，并且在性能上优于现有的单模态框架，并且接近使用更少的FLOPs和模型参数引入的多模态框架。

7. 方法详细介绍：

本文提出了一种名为“Flexible Modal Vision Transformer”（FM-ViT）的纯Transformer框架，用于提高单模态人脸防伪系统的性能。该方法包括多个ViT分支，每个分支对应一个输入模态，并在特定的STB之后插入多个CMTB，以利用其他模态的信息来提高当前模态的性能。CMTB由两个级联的多头互注意力（MMA）和多头融合注意力（MFA）模块组成。MMA模块计算所有模态的相关性图以挖掘自己分支的信息性patch token，而MFA模块则融合其他分支的模态信息，以指导自己的分支学习模态无关的活体特征。该方法旨在实现任何模态的灵活测试。

8. 实验设置：

本文在三个公共数据集（OULU-NPU、SiW和CASIA-SURF）上进行实验，以评估所提出的FM-ViT框架的性能。实验在一台服务器上进行，该服务器配备了Intel Xeon Gold 6248 CPU和四个NVIDIA Tesla V100 GPU。

9. 实验结果和分析：

所提出的FM-ViT方法在多个人脸防伪数据集上均取得了最先进的性能。在Protocol 1、2和4上的ACER分别为0.98％、0.30％和0.90％。与基线方法ViT相比，FM-ViT在RGB、Depth和IR模态上的性能均有所提高。此外，FM-ViT在WMCA数据集上的性能也优于基于ConvNet的最新方法。交叉测试实验还证明了FM-ViT在其他多模态和单模态数据集上的泛化能力。

Paper:14 2023-05-04 HeteroEdge：解决异构协作自主系统中的不对称性

1. Title:

HeteroEdge: Addressing Asymmetry in Heterogeneous Collaborative Autonomous Systems

2. Authors:

Mohammad Saeid Anwar, Emon Dey, Maloy Kumar Devnath, Indrajeet Ghosh, Naima Khan, Jade Freeman, Timothy Gregory, Niranjan Suri, Kasthuri Jayarajah, Sreenivasan Ramasamy Ramamurthy, Nirmalya Roy

3. Affiliation:

第一作者：马里兰大学巴尔的摩分校（University of Maryland Baltimore County，UMBC）

4. Keywords:

Collaborative Systems, Deep Edge Intelligence, Autonomous Systems

5. Paper: https:// arxiv.org/abs/2305.0325 2 Github: None

6. Summary :

(1):本文研究的背景是针对自主系统的深度学习算法的执行，由于其功耗、内存和计算需求，会影响自主系统的操作和安全性。
(2):过去的方法包括将推理任务转移到远程设备（云服务器或连接到同一网络的设备），但这种解决方案受到网络可用性、可靠性、低带宽和延迟的影响。本文提出了一种自适应优化框架，能够在多个异构节点上协同导航多个任务的工作负载（存储、处理、计算、传输、推理），并提出了一种新的参数分割比率，以指示需要卸载到另一个设备的数据比例，同时考虑测试平台设备的网络带宽、繁忙因素、内存（CPU、GPU、RAM）和功率限制。
(3):本文提出了一种数据驱动的资源感知卸载框架，该框架优化系统参数，如任务的处理复杂度、内存利用率、带宽和功率可用性，以确定主节点将一部分数据卸载到辅助节点的比例。此外，本文还引入了一种新的参数分割比率，以帮助我们有效地将数据卸载到辅助节点。本文还设计了一个测试平台，用于评估优化框架的性能，包括姿态估计、语义分割和目标检测等多个数据模态的DNN应用程序。
(4):本文的方法在多个任务同时执行时，将70％的数据（分割比率= 70％）执行在辅助节点上，可以将卸载延迟最小化约33％（从18.7毫秒/图像到12.5毫秒/图像），将总操作时间最小化约47％（从69.32秒到36.43秒），相比基线配置（在主节点上执行）具有更好的性能。

7. 方法详细介绍：

本文提出了一种名为HeteroEdge的系统，用于解决异构协作自主系统中的不对称性问题。该系统包括分裂比率选择、卸载周期、求解器、电池和充电约束以及移动性约束。分裂比率选择涉及计算设备可用性因子，并使用曲线拟合推导方程的系数。然后，使用内点优化器方法解决所制定的问题。卸载周期涉及使用Shannon-Hartley算法计算传输数据速率和卸载延迟。求解器涉及在考虑执行时间、功耗和内存等约束条件的情况下最小化延迟。电池和充电约束涉及考虑电池的剩余寿命和放电速率。移动性约束涉及引入卸载延迟的最小阈值，以更有效地管理卸载过程。

8. 实验设置：

本文描述了用于在异构系统上进行多DNN工作负载分析的实验设置。网络由两个异构边缘平台组成，一个低资源的Jetson Nano和一个Jetson Xavier，内置有一个八核NVIDIA Carmel ARM v8.2 CPU、8GB LPDDR5和一个512核Volta GPU。Jetson Nano不断监视系统参数，以将其工作负载卸载到更强大的设备上，以执行下游应用程序的多个DNN。安装有Jetson Nano的UGV以不同的角度和速度移动，以模拟各种移动条件。采用发布者-订阅者架构进行消息传递。

9. 实验结果和分析：

本文讨论了优化工作的结果，旨在通过将图像处理卸载到更强大的计算设备来减少DNN模型推理的延迟。使用掩码帧导致总操作时间更短，尽管功耗和内存利用率有明显变化。与基线配置相比，功耗略有增加，而内存使用显著减少。所提出的解决方案提供了一种在资源受限设备上减少DNN模型推理延迟的实用方法。结果表明，使用MQTT进行卸载并根据可用功率动态调整分裂比率可以进一步降低延迟并提高性能。

Paper:15 2023-05-04 通过稀疏图分割实现无控制条件下的文本阅读顺序

1. Title:

Text Reading Order in Uncontrolled Conditions by Sparse Graph Segmentation

2. Authors:

Renshen Wang, Yasuhisa Fujii, and Alessandro Bissacco

3. Affiliation:

谷歌研究院

4. Keywords:

Multi-modality, bidimensional ordering relations, graph convolutional networks.

5. Paper: https:// arxiv.org/abs/2305.0257 7 Github: None

6. Summary :

(1):本文研究的背景是OCR技术中的文本阅读顺序问题，该问题的难点在于特定领域的布局结构变化多样，且受到现实世界图像失真的影响。
(2):以往的方法包括基于规则的排序和基于机器学习的序列预测，但前者只适用于特定领域，后者存在可扩展性和准确性问题。本文提出了一种轻量级、可扩展和通用的方法，使用多模态、多任务图卷积网络在稀疏布局图上运行，以识别文本阅读顺序。
(3):本文提出的方法是将文本阅读顺序问题转化为图像分割问题，通过对每个文本实体进行二元分类，判断其是否处于列式或行式模式中。该方法使用β-骨架图进行RoI池化，提供了文本实体对的图像RoI框，从而更有效地捕捉文本实体之间的视觉线索。
(4):本文的方法在多语言数据集上运行良好，可以在移动设备等各种平台上部署。实验结果表明，该方法在文本阅读顺序任务上取得了较好的性能，支持其目标。

7. 方法详细介绍：

本文提出了一种基于图卷积网络（GCN）的文本阅读顺序预测方法。该方法使用β-骨架图构建稀疏图，将文本行框作为节点，文本行边界框的空间特征作为节点特征。模型还包括来自边缘框RoI池化的边缘特征的侧面输入，以捕获围绕文本框的潜在视觉线索。GCN是一个多任务模型，输出节点和边缘预测。在节点级别，它预测每个行框的阅读顺序模式（按列或按行）。在边缘级别，模型预测由边连接的两行是否属于同一段落。具体步骤包括： 1. 使用OCR引擎从输入布局和图像中提取空间图像特征和文本行。 2. 将布局分割为两种类型的区域，其中段落可以按其模式类型正确排序。 3. 建立β-骨架图，以便进行高效的图卷积，并提供RoI池化的边缘边界框。 4. 使用GCN模型进行节点和边缘预测。 5. 使用聚类和排序算法进行最终的阅读顺序预测。

8. 实验设置：

本文使用了包含25K个英文文本图像的数据集进行训练，以及每种可用语言的几百个测试图像。使用PubLayNet包含340K个训练图像和12K个验证图像，所有图像均为英文。使用标准化的Levenshtein距离来衡量阅读顺序的质量。对于每个阅读顺序组，取有序段落列表，并找到这些多边形中包含的所有OCR单词。每个段落内的单词顺序直接从OCR中获取，然后找到包含W中所有单词的序列的最短子序列，并计算其与W的Levenshtein距离，并乘以归一化因子1/|W|。

9. 实验结果和分析：

本文的方法在所有拉丁语言中都显著提高了阅读顺序的质量，即使训练数据仅在英语中可用。图像特征消融测试表明，边缘框比节点框更有效地发现文本边界框中的视觉线索。节点-边缘分类模型在大多数情况下可以产生合理的阅读顺序，但在具有多个紧密放置的表格部分的复杂布局中可能会失败。根本原因是缺乏两个分类任务的更高级别布局结构解析。在文本中，段落级别的数据注释通常很难，因为没有关于段落精确定义的普遍协议。在表格存在的情况下，使用结构预测的单独模型可能会表现得更好。

Paper:16 2023-05-02 MDENet：用于恶意软件开放集识别的多模态双嵌入网络

1. Title:

MDENet: Multi-modal Dual-embedding Networks for Malware Open-set Recognition

2. Authors:

Jingcai Guo, Yuanyuan Xu, Wenchao Xu, Yufeng Zhan, Yuxia Sun, and Song Guo

3. Affiliation:

Jingcai Guo, Wenchao Xu and Song Guo are with Department of Computing, The Hong Kong Polytechnic University, Hong Kong SAR, China, and with The Hong Kong Polytechnic University Shenzhen Research Institute, Shenzhen 518057, China.

4. Keywords:

Malware Recognition, Neural Networks, Classification, Multi-modal Analysis, Cyber-security.

5. Paper: https:// arxiv.org/abs/2305.0124 5 Github: None

6. Summary :

(1):本文研究的背景是恶意软件的开放集识别问题，即在已知恶意软件家族的同时，识别来自新颖未知家族的样本。
(2):现有的方法主要依赖于训练良好的分类器，考虑每个已知家族的预测概率，并使用基于阈值的检测来实现开放集识别。然而，恶意软件样本的特征分布极其相似，甚至在已知和未知家族之间也存在重叠，因此得到的分类器可能会对所有恶意软件样本产生过高的识别概率，从而降低模型性能。本文提出了多模态双嵌入网络（MDENet），利用不同模态的全面恶意软件特征增强恶意软件特征空间的多样性，更具代表性和区分性，以用于下游识别。具体而言，我们首先使用我们提出的数字编码器基于其数字特征为每个观察样本生成恶意软件图像，并使用重新设计的多尺度CNN结构，它可以更好地探索其统计和空间相关性。此外，我们建议将标记的恶意软件特征组织成一个句子，考虑其行为和动态，并利用语言模型作为文本编码器将其转换为可表示和可计算的文本向量。这样的并行多模态编码器可以融合上述两个组件以增强特征多样性。最后，为进一步保证开放集识别，我们将融合的多模态表示双重嵌入到一个主空间和一个关联子空间中，即，有区别性和排他性空间，采用对比采样和ρ-有界包围球正则化，分别求解分类和检测。此外，我们还丰富了我们先前提出的大规模恶意软件数据集MAL-100的多模态特征，并贡献了一个改进版本，称为MAL-100+。
(3):本文提出了一种新颖而强大的恶意软件开放集识别框架，涉及多模态编码器和双嵌入空间学习方法，以融合多模态恶意软件特征，即数字和文本（标记化）特征，以更好地识别分类和检测。我们还设计了一种修改后的基于距离的检测机制，以解决传统方法中的检测降级问题。
(4):本文在广泛使用的恶意软件数据集Mailing和我们提出的MAL-100+上的实验结果证明了我们方法的有效性。

7. 方法详细介绍：

本文提出了一种名为MDENet的多模态双嵌入网络，用于恶意软件开放集识别。该方法利用恶意软件样本的数字和文本信息学习双嵌入空间。数字信息从恶意软件样本的图像中提取，而文本信息从相应的文本描述中提取。该方法由两个主要组件组成：数字编码器和文本编码器。数字编码器使用共享的卷积神经网络从恶意软件图像中提取特征，而文本编码器使用双向LSTM从文本描述中提取特征。然后使用高斯相似函数将两个编码器组合起来学习双嵌入空间。该方法还包括一种基于距离的检测机制，用于检测未知的恶意软件样本。该方法的超参数通过网格搜索确定。使用Adam进行优化，学习率为0.0001，批量大小为32。

8. 实验设置：

本文在两个数据集上评估了所提出的方法：Mailing和MAL-100+。竞争者包括传统方法和基于DNN的方法。评估指标包括分类准确率和检测准确率。该方法的超参数通过网格搜索确定。使用Adam进行优化，学习率为0.0001，批量大小为32。

9. 实验结果和分析：

所提出的方法在Mailing和MAL-100+数据集上的分类准确率和检测准确率均优于所有竞争者。该方法在Mailing数据集上实现了99.32%的分类准确率和90.77%的检测准确率，在MAL-100+数据集上实现了94.30%的分类准确率和90.40%的检测准确率。该方法还实现了最佳的细粒度分类性能。消融分析证明了所提出方法的实用性和有效性。

Paper:17 2023-05-01 具有知识交互新能力的增强现实（ArK）

1. Title:

ArK: Augmented Reality with Knowledge Interactive Emergent Ability

2. Authors:

Qiuyuan Huang, Jae Sung Park, Abhinav Gupta, Paul Bennett, Ran Gong, Subhojit Som, Baolin Peng, Owais Khan Mohammed, Chris Pal, Yejin Choi, Jianfeng Gao

3. Affiliation:

第一作者：Microsoft Research, Redmond

4. Keywords:

Augmented Reality, Knowledge Inference, Emergent Ability, Scene Generation, Interactive AI

5. Paper: https:// arxiv.org/abs/2305.0097 0 Github: https:// augmented-reality-knowledge.github.io /

6. Summary :

(1):本文研究的背景是在混合现实和交互式AI代理的日益普及下，这些系统在未知环境中生成高质量的2D/3D场景仍然具有挑战性。
(2):过去的方法需要部署AI代理来收集大量的数据进行模型训练，以适应每个新任务。这个过程对于许多领域来说是昂贵的，甚至是不可能的。本文提出了一种无限代理，它可以从通用基础模型（例如GPT4、DALLE）中学习知识记忆，以适应新领域或场景，用于在物理或虚拟世界中理解和生成场景。
(3):本文提出了一种新的机制，称为具有知识推理交互的增强现实（ArK），它利用知识记忆在未知物理世界和虚拟现实环境中生成场景。本文的创新点在于，ArK机制可以有效地合成基础模型中编码的世界知识、从知识库检索的外部知识和通过人工智能交互收集的上下文记忆，从而在不同的环境中收集和综合知识和记忆，用于场景理解和生成。
(4):本文在四个交互式场景理解和生成任务上验证了ArK的有效性：物理世界中的对话式2D图像生成、虚拟环境中的对话式3D场景创建、混合现实中的对话式3D场景编辑和交互式游戏模拟场景。实验结果表明，与基线相比，ArK方法结合大型基础模型显著提高了生成的2D/3D场景的质量，证明了将ArK纳入生成式AI中的潜在好处。

7. 方法详细介绍：

本文提出了一种基于增强现实和知识推理交互的无限代理模型，用于将通用基础模型中的知识记忆转移至新领域或场景，以实现物理或虚拟世界中的场景理解和生成。该方法使用一种被称为ArK的新兴机制，利用知识记忆在未见过的物理世界和虚拟现实环境中生成场景。ArK方法结合大型基础模型，显著提高了生成的2D/3D场景的质量，相比基线模型，证明了将ArK纳入生成式AI中的潜在好处，适用于元宇宙和游戏模拟等应用。

具体步骤如下： 1. 训练Knowledge-Tensor-CLIP模块，使用三路对比学习目标和掩码建模损失。 2. 训练知识记忆代理，使用强化学习生成问题和答案元组，利用检索到的知识。 3. 使用训练好的知识记忆代理，使用GPT-4/ChatGPT执行3D场景生成，输出文本代码，然后使用3D渲染引擎进行渲染。

8. 实验设置：

本文在物理世界和虚拟环境中验证了ArK的有效性，包括对话式2D图像生成、对话式3D场景创建、混合现实中的对话式3D场景编辑和交互式游戏模拟场景。作者使用人类评估来分析生成的交互式场景的相关性和自然度。

9. 实验结果和分析：

本文在图像-文本检索和问答任务上进行了实验，将提出的方法与其他模型（如CLIP和Srinivasan等人的模型）进行了比较。结果表明，提出的方法在需要基于实体的知识的数据集上提供了改进。本文还展示了带有知识增强提示的对话式2D图像生成和3D场景编辑的定性示例。对话式2D图像生成的人类评估结果表明，与仅使用DALL-E相比，使用知识融合的方法实现了更高的相关性和自然度得分。

Paper:18 2023-04-29 Instruction-ViT: ViT中用于指导学习的多模态提示

1. Title:

Instruction-ViT: Multi-Modal Prompts for Instruction Learning in ViT

2. Authors:

Zhenxiang Xiao, Yuzhong Chen, Lu Zhang, Junjie Yao, Zihao Wu, Xiaowei Yu, Yi Pan, Lin Zhao, Chong Ma, Xinyu Liu, Wei Liu, Xiang Li, Yixuan Yuan, Dinggang Shen, Dajiang Zhu, Tianming Liu, Xi Jiang

3. Affiliation:

第一作者：Zhenxiang Xiao，电子科技大学生命科学与技术学院，中国成都其他作者：详见2.

4. Keywords:

Multi-modal prompts, instruction tuning, vision transformer, image classification, language models

5. Paper: https:// arxiv.org/abs/2305.0020 1 Github: None

6. Summary :

(1):本文研究背景是多模态模型在处理多源信息时的不足，需要更好的融合多模态信息。
(2):过去的方法主要是基于单模态的模型，无法很好地处理多模态信息。本文提出了一种基于instruction tuning的多模态prompt设计，可以更好地指导模型的微调，提高性能和适应性。
(3):本文提出了一种基于instruction tuning的多模态prompt设计，可以更好地指导模型的微调，提高性能和适应性。具体来说，本文将instruction tuning方法引入到视觉transformer模型中，通过添加与类别信息相关的多模态prompt（文本或图像prompt）来指导模型的微调。通过实验，本文证明了该方法的有效性和创新性。
(4):本文在多个图像字幕生成任务上进行了实验，结果表明Instruction-ViT模型在性能和领域适应性方面都有所提高。该方法的性能支持其目标。

7. 方法详细介绍：

本文提出了一种名为Instruction-ViT的方法，它是一个统一的框架，可以对齐图像和提示的输入。该方法使用类名的文本、相应的图像以及文本和图像的组合作为提示标记，然后将提示标记作为输入传递给ViT骨干网络。ViT骨干网络采用自注意力机制，使[CLS]标记利用来自图像和提示的特征。Transformer模块的输入表示为xin=[xcls;xim;xp]，其中xcls、xim和xp分别表示[CLS]标记、输入图像嵌入和提示标记。模型使用分类头完成分类任务，使用交叉熵损失作为损失函数。为了改善不同模态提示和输入图像之间的对齐，通过计算输出[CLS]标记和提示标记之间的余弦相似度来计算相似度分数，并将相似度分数用作损失的一部分。模型使用RandAugment和Mixup方法进行数据增强，使用Adam优化器进行训练，训练20个epochs，批量大小为256，学习率为1e-4，采用余弦衰减策略的线性预热。

8. 实验设置：

本文在四个著名的图像分类数据集上进行了评估，包括Caltech-101、Oxford-III Pets、Stanford Cars和Oxford Flowers 102。采用12层Transformer块、768隐藏大小和12个注意头的网络架构，并采用预训练的CLIP图像和文本编码器。模型进行微调以完成下游图像分类任务，并在每个数据集任务上报告top-1准确率。

9. 实验结果和分析：

本文提出的方法在微调性能方面优于其他模型，包括基于ViT的模型和基于CNN的模型。实验结果表明，我们提出的方法可以通过引入不同模态的提示来优化当前的ViT-based方法。在四个数据集任务上，报告了top-1准确率。

Paper:19 2023-04-28 LLaMA-Adapter V2：参数高效的视觉指令模型

1. Title:

LLaMA-Adapter V2: Parameter-Efﬁcient Visual Instruction Model

2. Authors:

Peng Gao, Jiaming Han, Renrui Zhang, Ziyi Lin, Shijie Geng, Aojun Zhou, Wei Zhang, Pan Lu, Conghui He, Xiangyu Yue, Hongsheng Li, Yu Qiao

3. Affiliation:

上海人工智能实验室

4. Keywords:

Large Language Models, Visual Instruction, Multi-modal Reasoning, Language-only Instruction, Early Fusion

5. Paper: https:// arxiv.org/abs/2304.1501 0 Github: https:// github.com/ZrrSkywalker /LLaMA-Adapter

6. Summary :

(1):本文研究如何将大型语言模型(LLMs)高效地转化为指令跟随模型，同时探索了LLMs在多模态推理方面的训练。
(2):过去的方法主要是将LLMs微调为指令跟随模型，但是这些方法在处理开放式的视觉指令时表现不佳。本文提出了LLaMA-Adapter V2，通过解锁更多可学习参数，提出早期融合策略和联合训练范式，实现了参数高效的视觉指令模型。
(3):本文提出的LLaMA-Adapter V2方法通过联合训练图像-文本对和指令跟随数据，优化不同组可学习参数，实现了强大的多模态推理能力。同时，本文还引入了专家模型来增强图像理解能力。
(4):在COCO Caption数据集上，LLaMA-Adapter V2仅引入14M参数就能够执行开放式的多模态指令，同时在语言指令跟随和聊天交互方面表现出色。本文提出的方法在多模态推理方面取得了良好的性能，支持其目标。

7. 方法详细介绍：

LLaMA-Adapter V2是一种参数高效的视觉指令模型，它通过解锁更多可学习参数、引入早期融合策略和联合训练范式来增强LLaMA-Adapter的视觉指令调整能力。该方法还将专家模型集成到LLaMA-Adapter V2中，以提高其图像理解能力。具体步骤如下： 1. 解锁LLaMA-Adapter中的所有归一化层，并为Transformer中的每个线性层添加一个偏置和一个比例因子作为两个可学习参数。 2. 引入早期融合策略，将视觉令牌仅馈送到早期LLM层中。 3. 采用联合训练策略，对图像-文本对和仅语言指令数据进行联合训练，以将预训练的LLMs转换为零-shot视觉指令模型。 4. 集成OCR和图像字幕生成器等专家视觉系统，以提供更准确的图像相关信息。

8. 实验设置：

LLaMA-Adapter V2模型使用了来自GPT-4-LLM的52K个单轮指令数据和来自COCO Caption的567K个字幕数据进行训练。模型没有使用任何视觉指令数据，如MiniGPT-4和LLaVA。此外，使用由ShareGPT收集的80K个对话数据训练了聊天机器人系统。

9. 实验结果和分析：

LLaMA-Adapter V2模型在处理图像-文本对和仅语言指令数据时表现出色，能够识别和解释问题所涉及的特定对象或特征，并根据上下文提供相关信息或建议。当问题超出图像中直接呈现的信息时，模型也能够推断并提供合理的猜测或解释。集成专家视觉系统大大扩展了LLaMA-Adapter V2的能力，充分发挥了其多模态推理潜力。

Paper:20 2023-04-25 通过CAD文件中用户提供的名称评估语言模型中的装配-部件语义知识

1. Title:

What’s in a Name? Evaluating Assembly-Part Semantic Knowledge in Language Models through User-Provided Names in CAD Files

2. Authors:

Peter Meltzer, Joseph G. Lambourne, Daniele Grandi

3. Affiliation:

Peter Meltzer, Joseph G. Lambourne: Autodesk Research, London, UK Daniele Grandi: Autodesk Research, San Francisco, USA

4. Keywords:

Artificial intelligence, Big data and analytics, Computer aided design, Data driven engineering, Machine learning for engineering applications

5. Paper: https:// arxiv.org/abs/2304.1427 5 Github: https:// github.com/AutodeskAILa b/WhatsInAName

6. Summary :

(1):本文研究的背景是在机械工程领域，自然语言被设计师和工程师用于整个设计过程中，但CAD模型中的自然语言一直被忽视。
(2):过去的方法主要集中在几何相似性上，而本文提出的方法是利用CAD软件中设计师使用的自然语言名称来提取装配件的语义知识，通过预训练的语言模型和微调来解决CAD库中的三个问题。本文的方法是有动机的，因为自然语言名称包含了重要的语义信息，而且大型语言模型已经在自然语言处理领域取得了成功。
(3):本文的研究方法是提取和清理自然语言语料库，使用预训练的DistilBERT语言模型在三个自监督任务上进行定量评估，并证明了该模型在没有微调的情况下优于多个基准测试。本文还表明，微调语言模型可以进一步提高性能，从而证明了文本数据的价值。本文的创新点在于，利用CAD软件中设计师使用的自然语言名称来提取装配件的语义知识，通过预训练的语言模型和微调来解决CAD库中的三个问题。
(4):本文的方法在三个任务上取得了良好的性能，包括预测两个部件是否常见地出现在同一装配中、预测给定装配中的非默认部件名称时预测随机选择的部件名称以及预测OnShape文档的用户定义名称。这些任务的性能支持了本文的目标。

7. 方法详细介绍：

本文提出了三个自监督任务来评估语言模型理解机械设计的能力。第一个任务是识别哪些零件常常在同一个装配体中出现。第二个任务是从文档中预测缺失的零件，第三个任务是从文档中的零件预测文档的名称。作者使用预训练的DistilBERT来编码零件和文档名称，并使用Set Transformer来编码每个零件的嵌入集合。作者还使用小型MLP来预测两个零件是否来自同一文档，并预测文档中缺失的零件。作者仅使用训练集对语言模型进行微调，使用标准的LLM微调任务。

8. 实验设置：

本文使用ABC数据集进行实验，将数据集分为70%/15%/15%的训练集、验证集和测试集。作者使用PyTorch和PyTorch-Lightning实现了所有模型，并使用Adam优化器进行优化。模型的超参数和实现细节在文中有详细描述。

9. 实验结果和分析：

本文的实验结果表明，使用自然语言名称可以提供有价值的语义知识，用于零件之间和零件与整体之间的关系。作者提出的方法在三个自监督任务上均取得了优异的性能，且微调可以进一步提高性能。本文的研究成果可以用于改进CAD软件中的生成式工作流程。

Paper:21 2023-04-27 mPLUG-Owl: 模块化赋能大型语言模型的多模态能力

1. Title:

mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality

2. Authors:

Qinghao Ye, Haiyang Xu, Guohai Xu, Jiabo Ye, Ming Yan, Yiyang Zhou, Junyang Wang, Anwen Hu, Pengcheng Shi, Yaya Shi, Chenliang Li, Yuanhong Xu, Hehong Chen, Junfeng Tian, Qian Qi, Ji Zhang, Fei Huang

3. Affiliation:

阿里巴巴达摩院

4. Keywords:

Large language models, multimodality, modularization, visual knowledge, abstractor module

5. Paper: https:// arxiv.org/abs/2304.1417 8 Github: https:// github.com/X-PLUG/mPLUG -Owl

6. Summary :

(1):本文研究背景是大型语言模型（LLMs）在多模态生成方面的应用。
(2):过去的方法包括系统协作和端到端训练模型，但这些方法存在一些问题，如缺乏对不同模态的对齐和不足的参数数量等。本文提出了一种新的训练范式mPLUG-Owl，通过模块化学习基础LLM、视觉知识模块和视觉抽象模块，使LLMs具备多模态能力，支持多种模态和多样的单模态和多模态能力。本文的方法通过两阶段方法对齐图像和文本，学习视觉知识，并通过冻结视觉知识模块，使用仅语言和多模态监督数据对LLM和抽象模块进行联合微调，以解锁一系列单模态和多模态能力。本文的方法不仅可以有效地整合文本和视觉信息，而且可以提高LLM的生成能力。
(3):本文提出的mPLUG-Owl是一种新的训练范式，通过模块化学习基础LLM、视觉知识模块和视觉抽象模块，使LLMs具备多模态能力。本文的方法通过两阶段方法对齐图像和文本，学习视觉知识，并通过冻结视觉知识模块，使用仅语言和多模态监督数据对LLM和抽象模块进行联合微调，以解锁一系列单模态和多模态能力。本文的方法不仅可以有效地整合文本和视觉信息，而且可以提高LLM的生成能力。
(4):本文的方法在一个视觉相关的指令评估集OwlEval上进行了实验，结果表明mPLUG-Owl在多模态指令理解和多轮对话方面表现优异，超过了现有模型。本文的方法还展示了强大的零-shot泛化和知识推理能力，如多图像相关性和场景文本理解等。

7. 方法详细介绍：

mPLUG-Owl是一种新颖的训练范式，通过模块化学习基础LLM、视觉知识模块和视觉抽象模块，为LLMs提供多模态能力。mPLUG-Owl的训练范式包括两个阶段的图像和文本对齐方法，通过冻结LLM模块学习视觉知识，同时保持甚至提高LLM的生成能力。第一阶段使用冻结的LLM模块训练视觉知识模块和抽象模块以对齐图像和文本。第二阶段使用仅文本和多模态监督数据集，通过冻结视觉知识模块，联合微调LLM和抽象模块的低秩适应（LoRA）模块。

8. 实验设置：

mPLUG-Owl使用的视觉基础模型fV是ViT-L/14，具有24层，隐藏维度设置为1024，补丁大小设置为14。ViT从CLIP ViT-L/14模型中初始化，该模型通过对比学习进行预训练。第一阶段使用来自多个数据集的图像-标题对，包括LAION-400M、COYO-700M、Conceptual Captions和MSCOCO。模型使用210万个令牌的批次大小进行50k步的训练，相当于约1040亿个令牌。第二阶段使用来自三个不同来源的纯文本指令数据和来自LLaVA数据集的多模态指令数据。模型使用256的批次大小进行2k步的训练。

9. 实验结果和分析：

本文在视觉相关指令评估集OwlEval上评估了mPLUG-Owl和基线模型的能力。OwlEval包括基于50个图像构建的82个人工构建的问题。手动评估指标将模型的响应评分为A、B、C或D。mPLUG-Owl在所有基线模型中表现最好，达到66个A和B分数，没有D分数。该模型在单轮和多轮对话中表现出卓越的性能。本文还进行了消融研究，证明了两阶段训练方案和指令调整数据模态的有效性。

Paper:22 2023-04-26 基于检索的知识增强视觉语言预训练

1. Title:

Retrieval-based Knowledge Augmented Vision Language Pre-training

2. Authors:

Jiahua Rao, Zifei Shan, Longpo Liu, Yao Zhou, Yuedong Yang

3. Affiliation:

Jiahua Rao, Yuedong Yang: Sun Yat-sen University, Guangzhou, China

4. Keywords:

Vision Language Pretraining, Knowledge Graph, Multi-modal Data, Self-supervised Learning

5. Paper: https:// arxiv.org/abs/2304.1392 3 Github: None

6. Summary :

(1):本文的研究背景是在大规模视觉和语言表示学习方面，Vision Language Pretraining (VLP) 模型在各种多模态下游任务中取得了有希望的改进，但这些预训练模型仍未充分利用世界知识，这些知识在多模态数据中是隐含的，但包含丰富和互补的信息。
(2):过去的方法，如ERNIE和KEPLER，已经明确地将知识纳入预训练语言模型中，但它们大多受到文本模态背后的知识的限制，忽略了其他模态中的大量知识。本文提出了一种基于检索的知识增强视觉语言预训练模型（REAVL），它从知识图谱中检索世界知识，并将其融入视觉语言预训练中。REAVL有两个核心组件：一个知识检索器，用于检索多模态数据给定的知识，以及一个知识增强模型，用于融合多模态数据和知识。通过新颖地统一四个知识感知的自监督任务，REAVL通过在掩码多模态数据建模和KG关系推理中将显式知识与视觉语言对融合，促进了多模态数据和知识的相互整合。
(3):本文提出了一种从知识图谱中检索世界知识的方法，并将其与多模态数据相结合，通过知识感知的自监督学习来提高检索步骤。为了深入地建模多模态数据和知识之间的交互，我们通过统一四种不同类型的知识感知自监督任务来预训练我们的模型：掩码语言建模（MLM）、掩码视觉建模（MVM）、KG链接预测（LinkPred）和图像文本对比学习（ITC）。我们的方法在多个视觉语言基准测试中进行了基准测试，包括通用、基于知识和多模态实体链接（MEL）任务。REAVL在基于知识和MEL任务上实现了最先进的性能。在通用任务上，REAVL在使用类似数量的数据进行训练的模型中得分最高，与使用数十亿张图像进行训练的模型相比，仅使用其数据的0.2％，显示出我们方法的强大样本效率。
(4):本文提出了一种从知识图谱中检索世界知识的方法，并将其与多模态数据相结合，通过知识感知的自监督学习来提高检索步骤。通过在掩码多模态数据建模和KG关系推理中将显式知识与视觉语言对融合，促进了多模态数据和知识的相互整合。在多个视觉语言基准测试中进行了基准测试，包括通用、基于知识和多模态实体链接（MEL）任务。REAVL在基于知识和MEL任务上实现了最先进的性能。在通用任务上，REAVL在使用类

7. 方法详细介绍：

本文提出了一种基于检索的知识增强视觉语言预训练模型（REAVL）。该模型包括BERT-base和ViT-B/16两个部分，使用AdamW优化器进行优化，采用MLM、MVM和Link Prediction等多种预训练任务进行训练。其中，MLM和MVM是知识感知的掩码数据建模目标，Link Prediction和ITC则是知识图谱的建模目标。REAVL模型通过检索知识图谱中的实体来增强视觉语言理解，实现了知识的检索和融合。

8. 实验设置：

本文使用了两个网络数据集和两个领域内数据集，共计4.0M张图像和5.1M个图像-文本对进行预训练。使用Wikidata5M知识图谱，对于每个实体，使用从维基百科收集的描述来生成实体嵌入。在视觉语言理解任务中，使用了OK-VQA、AOK-VQA、VQA-v2和SNLI-VE等数据集，对实体链接任务使用了WikiDiverse和WikiPerson数据集。

9. 实验结果和分析：

REAVL模型在知识感知任务上表现出色，优于所有现有模型，包括监督模型和VLP模型。在OK-VQA数据集上，相对于最佳基线REVIVE和BLIP，REAVL分别获得了1.94%和4.15%的相对准确率提升。在实体链接任务中，REAVL在两个数据集上的表现均优于CLIP模型，证明了多模态数据上的预训练目标对知识检索的促进作用。消融实验表明，将知识图谱与多模态数据相结合，以及在多模态数据上进行知识检索是模型性能的必要条件。

论文总结：

本文提出了一种基于检索的知识增强视觉语言预训练模型（REAVL），通过检索知识图谱中的实体来增强视觉语言理解，实现了知识的检索和融合。实验结果表明，REAVL模型在知识感知任务和实体链接任务上表现出色，优于现有模型。该方法为视觉语言理解任务提供了一种有效的知识增强方法。

Paper:23 2023-04-28 面向多模态文本和表格无缝查询的数据库管理系统

1. Title:

Towards Multi-Modal DBMSs for Seamless Querying of Texts and Tables

2. Authors:

Matthias Urban, Carsten Binnig

3. Affiliation:

Matthias Urban: 德国达姆斯塔特工业大学 (TU Darmstadt) Carsten Binnig: 德国达姆斯塔特工业大学 (TU Darmstadt) & 德国人工智能研究中心 (DFKI)

4. Keywords:

Multi-Modal Databases, Multi-Modal Operators, Text and Table Querying, GPT-3, Pre-trained Models

5. Paper: https:// arxiv.org/abs/2304.1355 9v2 Github: None

6. Summary :

(1):本文提出了一种新的数据库系统类别——多模态数据库（MMDBs），可以无缝地查询文本和表格数据。传统的关系型数据库系统无法很好地处理多模态数据，而本文提出的MMDBs可以将文本数据作为表格处理，从而实现了无缝查询。
(2):传统的数据库系统虽然已经支持了一些文本数据的扩展，如全文搜索或文本模式匹配，但是这些扩展并不能像表格数据一样通过SQL进行查询。本文提出的MMDBs通过引入多模态操作符（MMOps）来扩展传统的关系型数据库系统，从而可以无缝地查询文本和表格数据。同时，本文还提出了一种基于预训练模型的新型MMOps，可以更好地处理文本数据。
(3):本文提出了一种基于预训练模型的MMDB-Model，可以将文本数据转换为表格数据，从而实现了无缝查询。同时，本文还提出了一种新的预训练过程和一组表格特定的解码器，以更准确地将文本转换为表格数据。本文还提出了一种多模态扫描操作符，可以将文本数据转换为表格数据，并且还讨论了其他复杂的多模态操作符，如多模态连接、多模态并集和多模态聚合等。本文还提出了一些优化策略，以提高查询效率。
(4):本文的方法在多模态数据查询任务上取得了很好的性能，不仅在准确性和性能方面优于现有的方法，而且在使用更少的训练数据进行模型微调时也表现出色。因此，本文的方法可以有效地支持多模态数据的查询和分析。

7. 方法详细介绍：

本文提出了一种多模态数据库管理系统（MMDB），可以无缝地查询文本和表格。该系统使用预训练模型MMDB-Model，该模型包含三个新的预训练目标：列-文本对齐（CTA）、掩码单元格重构（MCR）和重复检测（DD）。CTA将表格列与文本对齐，MCR教授模型仅提取某一行的值，DD检测重复。预训练语料库由Wikidata和Wikipedia构建，包含1100万个Wikidata三元组对Wikipedia摘要的对齐。该系统还引入了多模态操作符，包括多模态扫描、连接、联合和聚合，以整合MMDB中其他表格的信息并提高提取质量。本文还提出了性能优化，如多模态物化视图和二级索引，以提高查询延迟。

8. 实验设置：

本文使用rotowire数据集进行实验，该数据集包含篮球比赛报告和总结每场比赛最重要的统计数据的表格。该数据集与两个包含篮球队和球员一般信息的表格配对使用，这些表格是从外部来源构建的。

9. 实验结果与分析：

本文将提出的MMDB系统与使用文本到表格的实现进行比较，并显示MMDB系统在有限的训练数据下实现更好的提取，并且计算效率更高。本文还评估了多模态操作符（包括多模态扫描、连接、联合和聚合）在rotowire数据集上的性能。本文提供了实验结果，证明了MMDB系统和MMDB-Model的设计。

Paper:24 2023-04-26 可学习的眼科图像分割SAM

1. Title:

Learnable Ophthalmology SAM

2. Authors:

Zhongxi Qiu, Yan Hu, Heng Li, Jiang Liu

3. Affiliation:

Southern University of Science and Technology, Research Institute of Trustworthy Autonomous Systems and Department of Computer Science and Engineering, Shenzhen, China. (南方科技大学，可信自主系统研究所，计算机科学与工程系，中国深圳)

4. Keywords:

Segmentation, Ophthalmology, Multi-modal images, Learnable prompt layer, ViT-based model

5. Paper:

Paper: https:// arxiv.org/abs/2304.1342 5v1 Github: None

6. Summary:

(1):本文研究的背景是眼科图像分割，由于多种模态图像的存在，现有的分割算法应用受限，需要大量标签或具有弱的泛化能力。
(2):过去的方法包括Segment Anything (SAM)和DINOv2等基础计算机视觉模型，但它们不能很好地应用于医学图像分割，因为它们缺乏医学先验知识。本文提出了一种适用于多模态眼科图像的可学习提示层，名为Learnable Ophthalmology Segment Anything (SAM)，通过一次性机制训练提示层和任务头，从而实现了自动学习不同模态图像的先验知识，提高了分割效果。
(3):本文提出的可学习提示层是在SAM的每个变换器层之间插入的，通过学习特征来自动学习感兴趣的目标。在训练过程中，只训练提示层和任务头。本文的创新点在于提出了一种适用于医学图像分割的可学习提示层，提高了分割效果。
(4):本文在四个医学分割任务上进行了实验，包括血管分割、病变分割、基于OCT的层分割等，使用了九个公开数据集进行评估。实验结果表明，本文提出的方法在多模态眼科图像分割任务上取得了较好的性能，支持了其目标。

7. 方法详细介绍：

本文提出了一种新的可学习的提示层，称为可学习眼科SAM，适用于眼科多模态图像的多目标分割。该方法使用Transformer编码器和解码器，其中每个Transformer层之间插入一个可学习的提示层，以从特征中学习医学先验知识。在训练期间，仅基于一次性机制训练提示层和任务头。该方法在四个医学分割任务上进行了评估，包括血管分割、病变分割和分层，使用九个公开数据集进行测试。

8. 实验设置：

本文在九个公开数据集上评估了所提出方法的性能，包括三个彩色眼底数据集、四个OCTA数据集、一个病变分割数据集和一个视网膜层分割数据集。模型使用Pytorch框架实现，并使用小批量随机梯度下降进行训练，采用动量为0.9和权重衰减为0.0005。采用Poly学习率调整策略动态设置学习率，并使用混合精度训练策略以节省内存。

9. 实验结果和分析：

本文在三个不同的分割任务上进行了一次性学习实验，结果表明所提出的方法在所有任务上都取得了良好的分割性能。具体来说，对于使用两种模态图像的血管分割任务，所提出的方法在精度、召回率、Dice系数、Bookmaker Informedness和交集联合等指标上均优于基线模型SAM。实验结果表明了所提出方法在医学图像分割中的有效性。

Paper:25 2023-04-25 一种新型多模态混合模型用于智能合约漏洞检测的HyMo

1. Title:

HyMo: Vulnerability Detection in Smart Contracts using a Novel Multi-Modal Hybrid Model

2. Authors:

Mohammad Khodadadi and Jafar Tahmoresnezhad

3. Affiliation:

Urmia University of Technology, Or¯um¯ıyeh, Iran. (作者1)

4. Keywords:

Artificial Intelligence, Deep Learning, Hybrid Model, Smart Contract, Blockchain, Security, Vulnerability Detection

5. Paper: arXiv:2304.13103v1 [cs.CR] 25 Apr 2023 Github: None

6. Summary :

(1):本文研究的背景是随着区块链技术的快速发展，智能合约已成为金融、医疗保健、保险和游戏等多个行业的常用工具。然而，智能合约的安全性已引起了人们的广泛关注，因为智能合约漏洞带来的经济损失巨大。
(2):现有的分析技术能够识别大量的智能合约安全漏洞，但它们过于依赖专家制定的严格标准，随着智能合约的复杂性增加，检测过程需要更长的时间。本文提出了HyMo作为一种多模态深度学习模型，智能地考虑各种输入表示形式以考虑多模态和FastText词嵌入技术，将每个单词表示为字符的n-gram，并使用BiGRU深度学习技术作为序列处理模型，由两个GRU组成，以实现更高的智能合约漏洞检测准确性。该模型使用各种深度学习模型收集特征以识别智能合约漏洞。
(3):本文提出了一种多模态深度学习方法HyMo，通过结合两种输入表示形式（即清理后的源代码和编译后的源代码）来考虑多模态，使用FastText词嵌入模型将每个单词表示为字符的n-gram，并使用BiGRU深度学习模型作为序列处理模型，由两个GRU组成，以实现更高的智能合约漏洞检测准确性。本文的主要贡献在于提出了HyMo模型，该模型通过使用各种输入表示形式、深度学习技术和词嵌入技术来提高智能合约漏洞检测的准确性。
(4):本文在当前公开可访问的数据集（如ScrawlD）上进行了一系列研究，表明我们的混合HyMo模型具有出色的智能合约漏洞检测性能。因此，HyMo对比其他方法更好地检测智能合约漏洞。

1. 方法论

本文提出了一种名为HyMo的多模态混合模型，用于检测智能合约中的漏洞。该模型结合了静态分析、动态分析和机器学习技术，以实现高准确性的漏洞检测。该模型的步骤包括特征提取、数据预处理、模型训练和测试。HyMo模型使用两种不同的输入表示，即清理后的源代码和编译后的源代码（opcode），并使用两种词嵌入技术将输入向量化。两个深度学习模型（BiGRU）用于提取特征值，输出通过分类产生，其中0表示免疫智能合约，1表示易受攻击的智能合约。该方法的四个步骤是通过预处理生成清理后的源代码和opcode，使用两种词嵌入技术将高维智能合约映射到低维向量，使用两个神经网络提取特征值，最后通过分类产生输出。

2. 实验设置

本文的实验分为两个部分：第一部分讨论各种输入表示、深度学习模型和词嵌入模型，以展示我们提出的模型的准确性；第二部分将提出的模型与早期研究进行比较，以展示其性能。实验数据集是一个标记的真实世界以太坊数据集，包含易受攻击的智能合约，名为ScrawlD。ScrawlD数据集与SmartBugs Dataset-Wild中的一些带有算术漏洞的标记智能合约相结合。本文使用的性能测量是准确性、召回率、精确度和F1-score。Adam优化器用于更新和计算网络参数，Adam优化器的学习率设置为0.001。dropout层参数设置为0.5，批量大小设置为128，而时代被认为是50。

3. 实验结果与分析

本文提出的HyMo模型是一种多模态混合网络模型，基于深度学习设计。该模型结构包括FastText词嵌入模型、BiGRU特征提取和softmax层分类。特征融合过程采用连接方法，融合的特征矩阵比从单个网络检索的特征矩阵表现更好。HyMo模型与CBGRU、Mythril和Osiris进行了比较，比较结果表明，HyMo的准确性达到了79.71%。结果表明，当使用不同的输入表示和词嵌入技术时，该模型可以更准确地提取特征值。

总结

本文提出了一种名为HyMo的多模态混合模型，用于检测智能合约中的漏洞。该模型结合了静态分析、动态分析和机器学习技术，以实现高准确性的漏洞检测。实验结果表明，HyMo模型在智能合约漏洞检测方面表现出色，比其他模型具有更高的准确性。

Paper:26 2023-04-25 AudioGPT：理解和生成语音、音乐、声音和说话头像

1. Title:

AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head

2. Authors:

Rongjie Huang, Mingze Li, Dongchao Yang, Jiatong Shi, Xuankai Chang, Zhenhui Ye, Yuning Wu, Zhiqing Hong, Jiawei Huang, Jinglin Liu, Yi Ren, Zhou Zhao, Shinji Watanabe

3. Affiliation:

浙江大学1, 北京大学2, 卡内基梅隆大学3, 中国人民大学4

4. Keywords:

Large language models, Audio processing, Speech understanding and generation, Multi-modal LLMs, Artificial general intelligence

5. Paper: https:// arxiv.org/abs/2304.1299 5 Github: https:// github.com/AIGC-Audio/A udioGPT

6. Summary :

(1):本文研究背景是当前大型语言模型在文本处理和生成方面的成功，但在音频模态（如语音、音乐、声音和说话头像）处理和生成方面的应用受到限制，而这些应用对于实现人工智能的普适性至关重要。
(2):过去的方法存在数据和计算资源稀缺的问题，难以训练出能够处理复杂音频信息的生成式语言模型。本文提出了一种名为AudioGPT的多模态人工智能系统，将LLMs（即ChatGPT）与音频基础模型相结合，通过输入/输出接口（ASR、TTS）支持口语对话，解决了音频理解和生成任务。
(3):本文提出的AudioGPT系统通过将LLMs与音频基础模型相结合，实现了对复杂音频信息的处理和生成。该系统包括四个阶段：模态转换、任务分析、模型分配和响应生成。本文提出了评估多模态LLMs的设计原则和过程，并在一系列AI任务中测试了AudioGPT的一致性、能力和鲁棒性。
(4):本文的方法在多轮对话中展示了处理语音、音乐、声音和说话头像的能力，取得了良好的性能，支持了其目标。

1. 方法详细介绍：

本文提出了一种名为AudioGPT的多模态人工智能系统，它通过与基础模型相结合，补充了LLMs（如ChatGPT）以处理复杂的音频信息并解决许多理解和生成任务。该系统与输入/输出接口（ASR，TTS）连接，以支持口语对话。整个AudioGPT的过程可以分为四个阶段：模态转换，任务分析，模型分配和响应生成。本文还概述了多模态LLMs的设计原则和评估过程。

2. 实验设置：

本文没有特定的实验设置部分。然而，本文提到实验结果展示了AudioGPT在多轮对话中处理复杂音频信息的能力，包括生成和理解语音、音乐、声音和说话人。

3. 实验结果和分析：

本文没有特定的实验结果和分析部分。然而，本文概述了评估多模态LLMs的设计原则和过程，实验结果展示了AudioGPT在多轮对话中处理复杂音频信息的能力，包括生成和理解语音、音乐、声音和说话人。此外，本文提供了各种音频任务的查询和相应响应的示例，包括声音检测、声音提取、语音增强、语音分离和语音翻译。响应表明该系统能够执行这些任务并将结果保存在指定的音频文件中。

Paper:27 2023-04-24 使用上下文数据丰富源代码以提高代码补全模型的性能：一项实证研究

1. Title:

Enriching Source Code with Contextual Data for Code Completion Models: An Empirical Study

2. Authors:

Tim van Dam, Maliheh Izadi, Arie van Deursen

3. Affiliation:

第一作者：Delft University of Technology

4. Keywords:

Code Completion, Transformers, Pre-trained Language Models, Context, Empirical Software Engineering

5. Paper: https:// arxiv.org/abs/2304.1226 9 Github: https:// github.com/AISE-TUDelft /ContextualDataCodeCompletion

6. Summary :

(1):本文研究的背景是Transformer-based pre-trained models在自动代码补全方面的应用。
(2):过去的方法主要关注于提高模型对代码的理解能力，而本文则探讨了如何通过使用上下文数据来提高代码的可读性。本文考虑了类型注释和注释两种常见的上下文信息形式。实验结果表明，所有模型在去除类型注释后表现更好，而在存在多行注释的情况下，模型的表现更好。作者建议在训练、微调或选择这些模型时，应根据所需的数据和应用程序进行适当的设计选择。
(3):本文通过在TypeScript代码中添加或删除类型注释和注释来探讨这些上下文信息对自动代码补全模型的影响。作者使用了三个最近的大规模语言模型：UniXcoder、CodeGPT和InCoder，并在两个粒度级别上进行了代码补全：标记和行补全。作者发现，所有模型在未注释的代码上表现更好，而多行注释对自动补全的性能有显著贡献。作者的贡献是对类型信息和自然语言文本信息对自动代码补全模型的影响进行了全面的实证评估，并提供了公开可用的源代码、数据集和选择的微调模型。
(4):本文的方法在TypeScript代码上进行了自动代码补全，实验结果表明，所有模型在未注释的代码上表现更好，而多行注释对自动补全的性能有显著贡献。作者建议在选择自动补全模型时，应考虑这些因素。

7. 方法详细介绍：

本文使用了三个源代码自动补全模型，分别是UniXcoder、CodeGPT和InCoder，来评估类型注释对代码自动补全性能的影响。作者在不同类型注释的TypeScript代码上对这三个模型进行了微调，然后使用这些模型对等效版本的TypeScript代码进行了自动补全。作者在两个粒度级别上进行了自动补全，即下一个标记预测和行自动补全。作者使用BLEU-4、ROUGE-L和METEOR三个指标对模型的性能进行了评估。作者还对结果进行了Wilcoxon Signed Rank检验，以确定统计显著性。最终，作者发现多行注释对模型的性能有最大的正面影响，而类型注释对模型的性能有负面影响。作者建议这些模型可能比类型注释和非多行注释更适合使用不同类型的上下文信息。

8. 实验设置：

作者从GitHub上收集了704个TypeScript存储库，并使用TypeScript编译器创建了同一TypeScript代码的多个变体。这些变体包括删除所有类型注释的代码和添加类型注释的代码。然后，作者使用五种不同的注释处理方式，包括保留注释、删除所有注释、仅保留单行注释、仅保留多行注释和仅保留文档块注释，创建了15个数据集。作者使用这些数据集微调了UniXcoder和CodeGPT的15个模型，并使用这些微调模型对测试集进行了预测。最后，作者对预测结果进行了后处理。

9. 实验结果和分析：

作者发现，对于下一个标记预测和行自动补全，所有模型在未注释代码上的性能均优于带类型注释的代码。添加类型注释可以提高自动补全性能，但对所有模型的效果都很小。作者还发现，保留所有注释或多行注释可以显著提高所有模型的性能。单行注释通常不会导致性能提升。作者使用Wilcoxon Signed Rank检验对结果进行了统计显著性检验，发现所有模型在所有评估指标上的表现差异都是显著的。

Paper:28 2023-05-11 通过ChatGPT增强提示，赋予LLMs图形推理能力的Graph-ToolFormer

1. Title:

Graph-ToolFormer: To Empower LLMs with Graph Reasoning Ability via Prompt Augmented by ChatGPT

2. Authors:

Jiawei Zhang

3. Affiliation:

美国加州大学戴维斯分校(IFM实验室)

4. Keywords:

Tool Transformer; ChatGPT; In-Context Learning; Language Model; Graph Learning

5. Paper: https:// arxiv.org/abs/2304.1111 6v3 Github: https:// github.com/jwzhanggy/Gr aph_Toolformer

6. Summary :

(1):本文旨在开发一种具有复杂图形数据推理能力的大型语言模型(LLM)。当前，LLMs在各种自然语言学习任务上取得了非常出色的表现，但是在图形学习任务中，由于它们在执行精确数学计算、多步逻辑推理、感知空间和拓扑因素以及处理时间进展方面的固有弱点，现有的LLMs存在非常严重的缺陷。
(2):为了解决这些挑战，本文将研究赋予现有LLMs图形推理能力的原则、方法和算法，这将对LLMs和图形学习的当前研究产生巨大影响。本文提出了Graph-ToolFormer(Graph Reasoning oriented Toolformer)框架，通过ChatGPT增强的提示来教授LLMs使用外部图形推理API工具。具体来说，本文将研究教授Graph-ToolFormer处理各种图形数据推理任务，包括(1)非常基本的图形数据加载和图形属性推理任务，从简单的图形顺序和大小到图形直径和周边，以及(2)在真实世界的图形数据上进行更高级的推理任务，例如文献论文引用网络、蛋白质分子图、顺序推荐系统、在线社交网络和知识图谱。
(3):为了构建Graph-ToolFormer，本文建议为每个图形推理任务手工制作指令和少量提示模板。通过上下文学习，基于这些指令和提示模板示例，采用ChatGPT注释和增强更大的图形推理语句数据集，使用最合适的外部API函数调用。这样增强的提示数据集将进行选择性过滤并用于微调现有预训练因果LLMs，例如GPT-J和LLaMA，以教授它们如何在输出生成中使用图形推理工具。为了展示Graph-ToolFormer的有效性，本文在各种图形推理数据集和任务上进行了广泛的实验研究，并推出了具有各种图形推理能力的LLM演示。Graph-ToolFormer框架、图形推理演示和图形和提示数据集的所有源代码均已在项目github页面上发布。
(4):本文旨在开发一种具有复杂图形数据推理能力的大型语言模型(LLM)。通过使用ChatGPT增强的提示来教授LLMs使用外部图形推理API工具，本文提出了Graph-ToolFormer(Graph Reasoning oriented Toolformer)框架。本文在各种图形推理数据集和任务上进行了广泛的实验研究，并推出了具有各种图形推理能力的LLM演示。

7. 方法详细介绍：

本文提出了Graph-ToolFormer框架，包括三个主要部分：使用ChatGPT进行提示数据注释和增强，使用生成的提示数据集对现有的预训练因果LLMs进行微调，以及使用微调模型进行推理，将图推理API调用添加到语句中。该框架旨在通过ChatGPT增强的提示使LLMs具备图推理能力。本文还将最基本的图学习问题分为六类，包括属性计算、节点分类、图分类、链接预测、序列推荐系统推理和知识图谱推理任务。

具体步骤如下： 1. 为各种图推理任务手工编写指令和提示模板。 2. 使用ChatGPT对更大的图推理语句数据集进行注释和增强，以添加适当的外部API函数调用。 3. 对现有的预训练因果LLMs（如GPT-J和LLaMA）进行微调，以教授它们如何在输出生成中使用图推理工具。

8. 实验设置：

本文使用了各种真实世界的基准图数据集来测试所提出的Graph-ToolFormer框架的有效性。这些数据集包括来自各个领域的图数据，如文献网络、生物化学分子图、在线社交网络、推荐系统和知识图谱。其中一些图具有附加到节点和链接的特征和标签。

9. 实验结果和分析：

本文在各种图推理数据集和任务上进行了广泛的实验研究，以证明所提出的Graph-ToolFormer框架的有效性。实验包括基本图属性计算、论文主题推断、分子图函数预测、在线社交网络社区检测、个性化序列推荐和知识图谱实体和关系推理等各种图推理任务。该框架的源代码、图形推理演示和图形和提示数据集已在项目Github页面上发布。

Paper:29 2023-04-20 MiniGPT-4：利用先进的大型语言模型增强视觉语言理解

1. Title:

MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models

2. Authors:

Deyao Zhu, Jun Chen, Xiaoqian Shen, Xiang Li, Mohamed Elhoseiny

3. Affiliation:

沙特阿拉伯国王科技大学

4. Keywords:

Large language models, Vision-language understanding, Multi-modal generation, MiniGPT-4

5. Paper: https:// arxiv.org/abs/2304.1059 2 Github: https:// minigpt-4.github.io/

6. Summary :

(1):本文研究背景是大型语言模型在视觉语言理解方面的应用。
(2):过去的方法存在一些问题，如生成的语言不连贯等。本文提出了一种新的方法，即MiniGPT-4，通过将先进的大型语言模型与视觉编码器对齐，实现了多模态生成的能力。MiniGPT-4的方法得到了很好的激励。
(3):本文提出的MiniGPT-4模型，通过将先进的大型语言模型Vicuna与预训练的视觉编码器BLIP-2对齐，实现了多模态生成的能力。MiniGPT-4只需要训练一个投影层，即可将视觉特征与语言模型对齐。本文的创新点在于，通过使用对话模板，对齐高质量的图像-文本对，提高了生成的自然度和可用性。
(4):MiniGPT-4在多个任务上取得了很好的性能，如生成详细的图像描述、根据手写文本指令创建网站、解释不寻常的视觉现象、直接从食物照片中生成详细的食谱等。MiniGPT-4的性能支持了其目标。

7. 方法详细介绍：

MiniGPT-4模型使用一个线性投影层将预训练的视觉编码器与先进的大型语言模型（LLM）对齐。Vicuna作为语言解码器，而视觉编码器与BLIP-2中使用的相同，即ViT骨干网络与他们预训练的Q-Former相结合。该模型经历了两个阶段的训练，初始阶段涉及在大量对齐的图像-文本对上预训练模型以获取视觉语言知识。在第二阶段，使用设计的对话模板对模型进行微调，使用较小但高质量的图像-文本数据集，以增强模型的生成可靠性和可用性。MiniGPT-4只需要训练一个线性投影层，将视觉特征与Vicuna对齐。

8. 实验设置：

本文使用了多个数据集，包括LAION、Conceptual Captions和SBU，其中包含了大量的图像和文本数据。MiniGPT-4模型在4个A100 GPU上进行训练，初始阶段的训练步骤为20k，批量大小为256。在第二阶段，使用高质量、对齐的数据集对模型进行微调，以进一步提高生成语言的自然度和可用性。

9. 实验结果与分析：

MiniGPT-4模型表现出了许多类似于GPT-4的能力，例如生成详细的图像描述和从手写草稿创建网站。此外，MiniGPT-4还展示了其他新兴的能力，包括根据给定的图像创作故事和诗歌，提供解决方案，教用户根据食物照片烹饪等。该模型具有高度的计算效率，只需要使用约500万对齐的图像-文本对训练一个投影层。

Paper:30 2023-04-20 基于CLIP引导的视觉-文本融合Transformer模型用于基于视频的行人属性识别

1. Title:

Learning CLIP Guided Visual-Text Fusion Transformer for Video-based Pedestrian Attribute Recognition

2. Authors:

Jun Zhu, Jiandong Jin, Zihan Yang, Xiaohao Wu, Xiao Wang

3. Affiliation:

Xiao Wang, Anhui University, School of Computer Science and Technology, China (安徽大学计算机科学与技术学院)

4. Keywords:

Pedestrian Attribute Recognition, Video-based, CLIP, Transformer, Fusion

5. Paper: https:// arxiv.org/abs/2304.1009 1v1 Github: https:// github.com/Event-AHU/VT F_PAR

6. Summary :

(1):本文研究的是基于视频的行人属性识别问题，现有的算法主要基于静态图像，但是在存在挑战性因素的图像中，如重度遮挡、运动模糊等，性能不可靠。因此，本文提出了一种利用视频帧进行人类属性理解的方法，以充分利用时间信息。
(2):现有的行人属性识别模型主要基于卷积神经网络（CNN）和循环神经网络（RNN），这些模型只能处理静态图像。一些研究者尝试使用Transformer网络来处理全局上下文信息，但这些模型只能用于基于图像的属性识别。此外，现有的视频属性识别模型忽略了时间信息，可能在实际场景中获得次优结果。因此，本文提出了一种基于CLIP引导的视觉-文本融合Transformer模型，以解决这些问题。
(3):本文提出了一种新颖的CLIP引导的视觉-文本融合Transformer模型，将视频帧和属性列表作为输入，将视频属性识别问题转化为多模态融合问题。具体来说，视频帧使用预训练的CLIP提取特征嵌入，属性列表通过分割、扩展和提示工程转换为相应的句子，然后使用CLIP的文本编码器进行语言嵌入。将平均的视觉令牌和文本令牌连接起来，输入到融合Transformer中进行多模态交互学习。增强的令牌将输入到分类头进行行人属性预测。
(4):本文在大规模视频属性识别数据集上进行了广泛的实验，验证了所提出的框架的有效性。与现有的行人属性识别模型相比，本文提出的模型在MARS数据集上取得了更好的性能。

7. 方法详细介绍：

本文提出了一种名为CLIP-guided Visual-Text Fusion Transformer的方法，用于视频行人属性识别。该方法将视频行人属性识别问题转化为视觉语言融合问题，采用预训练的CLIP模型提取给定视频帧的特征嵌入。属性列表被视为另一个输入，并通过分割、扩展和提示转换为相应的句子。然后，采用CLIP的文本编码器进行语言嵌入。平均视觉令牌和文本令牌被连接并输入到融合Transformer中进行多模态交互学习。增强的令牌将被输入到分类头中进行行人属性预测。采用二元交叉熵损失函数进行优化。

8. 实验设置：

本文使用MARS数据集进行训练和测试，该数据集包含625个人的8,298个轨迹和626个行人的8,062个轨迹。实验采用预训练的CLIP的ViT-B/16版本。模型的学习率为0.001，权重衰减为1e-4，模型总共训练20个epochs。采用Adam优化器。评估指标为Precision、Recall和F1-score。

9. 实验结果与分析：

本文提出的CLIP-guided Visual-Text Fusion Transformer模型在MARS视频行人属性数据集上表现优异，Precision、Recall和F1-score分别达到81.76%、82.95%和81.94%，比VTB基线模型分别提高了2.80、4.53和3.62个百分点。同时，该模型也超过了Chen等人提出的VideoPAR模型，提高了9.9个百分点。Fine-grained属性结果在表2中报告，充分验证了该模型的有效性和优势。视频帧数在视频行人属性识别中起着重要作用，随着视频帧数的增加，性能可以逐渐提高，从77.27%到81.94%。可视化结果显示，该模型可以准确预测人类属性。

Paper:31 2023-04-19 一种基于关键点的多模态配准的鲁棒且可解释的深度学习框架

1. Title:

A robust and interpretable deep learning framework for multi-modal registration via keypoints

2. Authors:

Alan Q. Wang, Evan M. Yu, Adrian V. Dalca, Mert R. Sabuncu

3. Affiliation:

第一作者：Cornell大学和Cornell Tech电气与计算机工程学院，纽约州纽约市10044，美国

4. Keywords:

Image registration, Multi-modal, Keypoint detection

5. Paper: https://www. sciencedirect.com/scien ce/article/pii/S1361841522001749 Github: https:// github.com/evanmy/keymo rph

6. Summary :

(1):本文研究的背景是生物医学成像任务中的图像配准问题。
(2):过去的方法包括迭代优化和基于深度学习的方法，但它们存在一些问题，如对大的错位不够鲁棒、难以解释、没有利用问题中的对称性等。本文提出了一种基于关键点检测的深度学习框架，通过学习关键点来实现图像配准，从而解决了这些问题。
(3):本文提出的方法是通过检测对应的关键点来获得最优的变换，从而实现端到端的学习。这种基于关键点的方法不仅更加鲁棒，而且更易于解释，因为关键点可以揭示驱动最终对齐的图像部分。此外，本文还展示了如何在测试时有效地计算多个变换变体对应的多个变形场。本文的创新点在于将关键点检测作为一种无监督的策略，而不是需要人工标注的监督学习问题。
(4):本文在多模态脑MRI扫描的3D仿射和样条配准中展示了所提出的框架。实验结果表明，本文的方法在大位移情况下的配准精度优于当前最先进的方法。

7. 方法详细介绍：

KeyMorph是一种基于深度学习的图像配准框架，通过关键点检测实现多模态配准。该方法使用卷积神经网络（CNN）训练关键点检测器，检测输入图像中解剖学一致的关键点。然后，使用闭合形式解决方案计算两个图像之间的变换。该框架的设计可解释性强，关键点使用户能够可视化和理解对齐。作者还提出了一种自监督的预训练策略，以帮助关键点检测器初始化。该方法包括监督和无监督两种训练策略，监督设置允许模型在训练过程中利用分割，而无监督设置则假定仅有强度图像。此外，作者还提出了关键点检测网络的精心设计，以实现平移等变性。

具体步骤如下： 1. 使用CNN训练关键点检测器，检测输入图像中解剖学一致的关键点。 2. 使用闭合形式解决方案计算两个图像之间的变换，该解决方案不受关键点相对位置的影响，因此对大的错配具有鲁棒性。 3. 使用关键点进行对齐，可实现可解释性和可控性。 4. 提出了自监督的预训练策略，以帮助关键点检测器初始化。 5. 提出了监督和无监督两种训练策略，监督设置允许模型在训练过程中利用分割，而无监督设置则假定仅有强度图像。 6. 精心设计关键点检测网络，以实现平移等变性。

8. 实验设置：

实验使用多模态脑MRI数据集进行，将KeyMorph的性能与几种最先进的配准模型进行比较，包括ANTs、DLIR和SynthMorph。实验涉及在不同的初始错配情况下测试模型的性能，并分析Dice系数、Hausdorff距离和基于Jacobian的指标的性能。实验还涉及在不同超参数下测试KeyMorph的性能，包括关键点数量和变换参数。

9. 实验结果和分析：

实验结果表明，KeyMorph在多模态图像配准方面具有优异的性能。与其他配准模型相比，KeyMorph在大错配情况下表现更好。此外，作者还通过数据增强策略和关键点数量的变化来分析模型的鲁棒性和性能。实验还表明，从提取的关键点可以区分不同的主体，表明提取的关键点是解剖学一致的。

Paper:32 2023-04-19 MetaBEV：解决BEV检测和地图分割中的传感器故障

1. Title:

MetaBEV: Solving Sensor Failures for BEV Detection and Map Segmentation

2. Authors:

Chongjian Ge, Junsong Chen, Enze Xie, Zhongdao Wang, Lanqing Hong, Huchuan Lu, Zhenguo Li, Ping Luo

3. Affiliation:

第一作者：香港大学

4. Keywords:

Autonomous driving, multi-modal sensors, sensor failures, BEV perception, 3D object detection, map segmentation

5. Paper: https:// arxiv.org/abs/2304.0980 1v1 Github: https:// chongjiange.github.io/m etabev.html

6. Summary :

(1):本文研究背景为自动驾驶中的感知系统，该系统通常需要从多种传感器中获取输入，如LiDAR和相机。然而，在现实应用中，传感器故障和损坏会导致性能下降，从而危及自动驾驶的安全性。
(2):过去的方法主要集中在实现对于理想多模态输入的最佳性能，但是它们无意中忽略了设计模型在传感器故障时的表现。本文提出了一个名为MetaBEV的鲁棒框架，以应对极端的现实世界环境，包括六种传感器故障和两种极端的传感器缺失情况。MetaBEV首先通过模态特定编码器处理多个传感器的信号。然后，初始化一组密集的BEV查询，称为元BEV。这些查询随后由BEV-Evolving解码器迭代处理，该解码器从LiDAR、相机或两种模态中选择性地聚合深度特征。更新的BEV表示进一步用于多个3D预测任务。此外，本文还引入了一种新的M2oE结构，以缓解多任务联合学习中不同任务的性能下降。
(3):本文提出了一种在统一的鸟瞰图（BEV）表示空间中进行任意模态和任务不可知学习的方法，以解决现有方法中存在的特征不对齐和完整模态依赖问题。本文提出了一种模态任意的BEV-Evolving解码器，该解码器利用跨模态注意力将可学习的元BEV查询与单个相机BEV特征、LiDAR-BEV特征或两者相关联，以消除瓶颈。最后，我们应用一些任务特定的头来支持不同的3D感知预测。
(4):本文在nuScenes数据集上进行了评估，包括3D物体检测和BEV地图分割任务。实验结果表明，MetaBEV在完整和损坏的模态上都比现有方法表现更好。例如，当LiDAR信号缺失时，MetaBEV在检测NDS和分割mIoU上分别提高了35.5%和17.7%。当相机信号缺失时，MetaBEV仍然可以实现69.2%的NDS和53.7%的mIoU，这甚至比以前在完整模态上表现的方法更好。此外，MetaBEV在规范感知和多任务学习设置中都表现出色，刷新了nuScenes BEV地图分割的最新水平，达到70.4%的mIoU。

7. 方法详细介绍：

MetaBEV是一种用于解决鸟瞰图3D检测和地图分割中传感器故障的框架。该方法使用多模态特征编码器生成BEV空间中的融合特征，允许图像特征和LiDAR特征进行互补融合。BEV-Evolving解码器用于缓解检测和分割之间的任务冲突。它由交叉模态注意力层、自注意力层和M2oE块组成。交叉模态注意力层逐层执行融合过程，而自注意力层有助于融合特征捕获内部相关性。M2oE块用于多任务学习。该方法是第一个将MoE引入3D目标检测和BEV地图分割作为多模态、多任务和鲁棒的方法。

8. 实验设置：

MetaBEV在nuScenes数据集上进行评估，该数据集包含从多个传感器收集的高分辨率传感器数据，包括注释图像、LiDAR扫描和3D注释。数据集通常分为700/150/150个场景进行训练/验证/测试。评估包括六种常见的损坏，包括有限的视野、物体丢失、光束缩减、视野噪声、视野丢失和障碍物遮挡。使用MMDetection3D的标准图像和LiDAR数据增强策略增加训练样本的多样性。AdamW用作优化器，权重衰减为0.05，循环学习率计划。CBGS用于在数据采样期间平衡对象类别。

9. 实验结果和分析：

MetaBEV在完整和损坏的模态下均取得了显着的性能提升。例如，当LiDAR信号丢失时，MetaBEV在检测NDS和分割mIoU上分别提高了35.5%和17.7%。当相机信号丢失时，MetaBEV仍然实现了69.2%的NDS和53.7%的mIoU，甚至比以前的全模态方法更高。此外，MetaBEV在规范感知和多任务学习设置中表现相当，刷新了nuScenes BEV地图分割的最新性能，达到70.4%的mIoU。

Paper:33 2023-03-31 基于结构感知扩散模型的草图参考图像合成

1. Title:

Reference-based Image Composition with Sketch via Structure-aware Diffusion Model

2. Authors:

Kangyeol Kim, Sunghyun Park, Junsoo Lee, Jaegul Choo

3. Affiliation:

KAIST（韩国科学技术院）

4. Keywords:

Image composition, Sketch, Diffusion model, Reference image

5. Paper: https:// arxiv.org/abs/2304.0974 8 Github: None

6. Summary :

(1):本文研究背景是大规模文本到图像生成模型的发展，以及如何进一步提高可编辑性和实现细粒度生成。
(2):过去的方法包括修改推理过程中的前向方案或结合多种模态，但是这些方法存在一些问题。本文提出了一种多输入条件的图像合成模型，其中引入了草图作为一种新的模态，以及参考图像。本文的方法可以通过草图的边缘级可控性来编辑或完成图像的子部分，并使用参考图像来完成缺失区域，同时保持草图的指导。这种方法可以满足用户获取所需图像的广泛需求。
(3):本文提出了一种基于扩散模型的多输入条件图像合成框架，可以生成由草图和参考图像指导的结果。在生成过程中，草图作为结构先验，决定了目标区域内结果的形状。为了实现这一点，我们训练了一个扩散模型来使用参考图像填补缺失区域，同时保持草图的指导。此外，我们在推理阶段提出了草图插入和拖放策略，使模型具有一定的灵活性，以放宽草图的指导。本文的方法可以用于图像操作，实现用户驱动的任意场景修改。
(4):本文的方法在卡通场景的编辑方面具有独特的用例。通过大量实验，我们证明了我们提出的方法可以实现用户驱动的任意场景修改，并且在定量比较中取得了优异的结果。

7. 方法详细介绍：

本文提出了一种多输入条件的图像合成框架，通过草图和参考图像指导生成结果。在生成过程中，草图作为结构先验，决定了目标区域内结果的形状。模型通过微调预训练扩散模型，使用参考图像完成缺失区域，同时保持草图的指导。草图插入策略被添加以灵活调整草图条件的融合步骤。模型采用自监督训练来训练扩散模型，每次迭代的训练批次包括 {xp, m, s, xr}，模型的目标是正确生成掩膜部分 m ⊙ xp。

8. 实验设置：

本文使用了两个数据集进行实验，分别是CelebA和CartoonSet。实验中，将图像分为训练集、验证集和测试集。使用了多个评价指标，包括FID、PSNR和SSIM等。实验中的基线模型包括Context Encoder、Partial Convolution、Gated Convolution和Edge-Connect等。

9. 实验结果与分析：

本文使用FID评价指标评估了生成图像的视觉质量。比较结果表明，仅使用单个参考图像无法很好地猜测缺失部分，产生了审美上不吸引人的完成结果。另一方面，仅使用草图输入可以通过指导结构来显著提高视觉质量。表1显示了与基线的定量比较，Paint-by-E+S方法在伴随草图和示例图像的情况下展现了最出色的性能。本文还展示了模型在编辑真实世界卡通场景方面的多个代表性应用，包括背景场景编辑、对象形状编辑和对象更改等。

Paper:34 2023-04-18 超几何图像-文本表示

1. Title:

Hyperbolic Image-Text Representations

2. Authors:

Karan Desai, Maximilian Nickel, Tanmay Rajpurohit, Justin Johnson, Ramakrishna Vedantam

3. Affiliation:

Karan Desai: University of Michigan (密歇根大学) Maximilian Nickel, Justin Johnson: FAIR, Meta AI Tanmay Rajpurohit: Independent Researcher Ramakrishna Vedantam: New York University (纽约大学)

4. Keywords:

Hyperbolic space, image-text representation, visual-semantic hierarchy, contrastive learning, interpretability

5. Paper: https:// arxiv.org/abs/2304.0917 2 Github: None

6. Summary :

(1):本文研究了图像和文本的超几何表示，旨在更好地捕捉它们之间的视觉-语义层次结构。当前的大规模视觉和语言模型虽然表现出色，但并未明确捕获这种层次结构。
(2):过去的方法将图像和文本表示为高维欧几里得空间中的向量，但这种几何结构难以捕捉视觉-语义层次结构。本文提出了MERU，一种对比模型，可以在超几何空间中嵌入图像和文本，从而更好地捕捉层次结构。与欧几里得空间相比，超几何空间具有更适合嵌入树状数据的几何属性，可以更好地捕捉视觉-语义层次结构。
(3):本文提出了MERU，这是我们所知道的第一个大规模对比图像-文本模型，它将数据嵌入超几何表示空间中，从而捕捉视觉-语义层次结构。本文的方法类似于当前最先进的对比方法，但将图像和文本嵌入共享的超几何空间中。实验结果表明，MERU学习到了高度可解释和结构化的表示空间，同时在标准的多模态任务（如图像分类和图像-文本检索）上与CLIP的性能相当。
(4):本文的方法在图像检索和分类任务上表现出色，具有更高的效率和可解释性，可以更好地支持大规模多模态数据集的探索性数据分析。

7. 方法详细介绍：

本文提出了MERU模型，用于学习图像和文本的双向嵌入。该模型使用Lorentz超几何模型将图像和文本嵌入到共享的双曲空间中。模型使用对比损失函数进行训练，最大化正样本的相似度，最小化负样本的相似度。模型还使用多任务目标函数进行训练，包括图像分类、图像-文本检索和零样本检索。MERU模型与CLIP模型进行比较，结果表明MERU在零样本检索和分类任务上优于CLIP，并且更有效地利用嵌入空间。

8. 实验设置：

本文使用包含1200万个图像-文本对的大规模数据集进行MERU模型的训练。数据集由Conceptual Captions数据集和Open Images数据集组成。模型使用对比损失函数和多任务目标函数进行训练，包括图像分类、图像-文本检索和零样本检索。模型与CLIP模型进行比较，两个模型都在相同的数据集上进行训练。

9. 实验结果和分析：

本文在20个图像分类基准测试集上评估了MERU模型，并报告了所有数据集的top-1平均每类准确率。MERU在13个标准数据集上与CLIP相匹配或优于CLIP，并且在不影响精度的情况下对召回率相关的度量有效。MERU的双曲表示与不同的模型架构的欧几里得表示相比具有竞争力。本文还展示了双曲嵌入可能是资源受限的设备应用的有吸引力的解决方案。

Paper:35 2023-04-17 VALOR: 视听语言全感知预训练模型与数据集

1. Title:

VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset

2. Authors:

Sihan Chen, Xingjian He, Longteng Guo, Xinxin Zhu, Weining Wang, Jinhui Tang, Jing Liu

3. Affiliation:

Sihan Chen and Jing Liu are with School of Artificial Intelligence, University of Chinese Academy of Sciences and National Laboratory of Pattern Recognition, Institute of Automation, Chinese Academy of Sciences.

4. Keywords:

Vision-Audio-Language Pretraining, Multimodal Understanding, Multimodal Pretraining

5. Paper: https:// arxiv.org/abs/2104.0396 0 Github: https:// casia-iva-group.github.io /projects/VALOR

6. Summary :

(1):本文的研究背景是多模态理解和生成。人类通过多种媒介感知环境，理解或与世界互动。理想的智能系统也应该模仿这一点，发展跨模态的理解和生成能力。本文提出了一种Vision-Audio-Language Omni-Perception预训练模型（VALOR），用于建立三种模态之间的通用联系，实现三模态理解和生成。
(2):过去的方法主要集中在视觉-语言预训练模型上，本文认为这远远不够，引入音频模态来建立三模态交互是必要的。本文提出了两个预训练任务，即多模态分组对齐（MGA）和多模态分组字幕（MGC），以赋予VALOR模型处理判别性和生成性任务的能力。本文构建了一个大规模高质量的三模态数据集VALOR-1M，以促进三模态预训练研究。本文的方法在多个公共跨模态基准测试中取得了新的最优结果。
(3):本文提出了一种Vision-Audio-Language Omni-Perception预训练模型（VALOR），用于建立三种模态之间的通用联系，实现三模态理解和生成。VALOR包含三个单模态编码器和一个多模态条件文本生成器。本文设计了两个预训练任务，即多模态分组对齐（MGA）和多模态分组字幕（MGC）。MGA通过对比学习将三种模态投影到相同的公共空间中，建立视觉-语言、音频-语言和音频视觉-语言对齐。MGC通过交叉注意力层，要求模型在视觉、音频或两者的条件下重构随机掩码文本标记。VALOR可以学习如何根据不同的模态组合对齐或生成文本，并将这些能力转移到各种跨模态下游任务中。
(4):本文的方法在多个公共跨模态基准测试中取得了新的最优结果。VALOR在文本到视频检索、视频字幕生成、视频问答等任务上的表现均优于之前的最优方法。本文的方法在ClothoV1和AudioCaps等文本到音频检索基准测试中也取得了最优结果。本文的方法在VATEX字幕生成基准测试中也优于GIT2大模型。本文的方法在VALOR-32K基准测试中也取得了良好的结果。

7. 方法详细介绍：

本文提出了一种名为VALOR的视听语言全感知预训练模型，用于多模态理解和生成。VALOR包含三个单模态表示的编码器和一个用于多模态条件文本生成的解码器。为了预训练VALOR模型，设计了两个预文本任务，即多模态分组对齐（MGA）和多模态分组字幕（MGC）。MGA将视觉、语言和音频投影到相同的公共空间中，同时建立视觉-语言、音频-语言和音频视觉-语言对齐。MGC学习如何在视觉、音频或两者的条件下生成文本标记。具体步骤包括： 1. 对数据进行预处理，包括视频帧采样、音频采样和文本处理。 2. 使用MGA任务对VALOR模型进行预训练。 3. 使用MGC任务对VALOR模型进行预训练。 4. 在VALOR-1M数据集上进行微调。 5. 在VALOR-32K数据集上进行微调。

8. 实验设置：

本文构建了一个大规模高质量的三模态数据集VALOR-1M，其中包含100万个带有人工注释的音频视觉字幕视频。本文还建立了一个新的基准VALOR-32K，用于评估音频视觉语言能力。它包含两个新任务，包括音频视觉检索（AVR）和音频视觉字幕（AVC）。

9. 实验结果和分析：

本文在多个公共视频语言、图像语言和音频语言基准测试中广泛验证了VALOR，并取得了一系列新的最先进结果。VALOR在各种基准测试中均优于以前的最先进方法，包括文本到视频检索、视频字幕、视频问答、开放式视频问答、文本到音频检索和VATEX字幕基准测试。进行了广泛的消融研究，以证明所提出的VALOR模型和模态分组策略的有效性。

Paper:36 2023-04-15 MA-ViT：面部反欺骗的模态不可知视觉Transformer

1. Title:

MA-ViT: Modality-Agnostic Vision Transformers for Face Anti-Spooﬁng

2. Authors:

Ajian Liu, Yanyan Liang

3. Affiliation:

Macau University of Science and Technology

4. Keywords:

Face Anti-Spoofing, Modality-Agnostic Vision Transformers, Multi-Modal Fusion, Early Fusion, Late Fusion

5. Paper: https:// arxiv.org/abs/2304.0754 9 Github: None

6. Summary:

(1):本文研究的背景是面部反欺骗技术的发展和应用。
(2):过去的多模态融合方法主要有两种，即中途融合和后期融合，但它们都存在一些问题，如需要测试模态与训练模态一致、模型参数过多等。本文提出了一种基于Transformer的单支路框架，即Modality-Agnostic Vision Transformer（MA-ViT），采用早期融合策略，可以灵活地测试任何给定的模态样本，同时引入了Modality-Agnostic Transformer Block（MATB）来消除模态相关信息和补充模态不可知的活体特征。这种方法不仅可以提高单模态系统的性能，而且可以在模型参数和FLOPs较小的情况下接近多模态框架的性能。
(3):本文提出的MA-ViT框架采用早期融合策略，将所有可用的训练模态数据聚合起来，采用MATB来消除模态相关信息和补充模态不可知的活体特征。MATB由两个堆叠的注意力模块组成，分别是Modal-Disentangle Attention（MDA）和Cross-Modal Attention（CMA）。MDA消除了分类令牌中的模态相关信息，CMA从其他模态序列中补充模态不可知的活体特征。
(4):本文在面部反欺骗任务上进行了实验，结果表明，MA-ViT可以灵活地评估不同的模态样本，并且在性能上优于现有的单模态框架，接近于使用更少的FLOPs和模型参数的多模态框架。

7. 方法详细介绍：

本文提出了一种面部活体检测的模态无关视觉Transformer（MA-ViT）框架。该框架采用早期融合策略，聚合所有可用的训练模态数据，并能够灵活地测试任何给定的模态样本。MA-ViT采用Modality-Agnostic Transformer Block（MATB），其中包括两个堆叠的注意力机制，即Modal-Disentangle Attention（MDA）和Cross-Modal Attention（CMA），用于消除每个模态序列的模态相关信息，并从另一个模态序列补充模态无关的活体特征。MA-ViT可以通过多模态数据提高单模态系统的性能，仅增加可接受的FLOPs和模型参数。

8. 实验设置：

本文使用了三个多模态和一个单模态的面部活体检测数据集进行实验，包括CASIA-SURF（MmFA）、CASIA-SURF CeFA（CeFA）、WMCA和OULU。采用提供的协议进行内部测试实验，交叉测试实验评估了所提出方法的鲁棒性。评估指标包括攻击呈现分类错误率（APCER）、真实呈现分类错误率（BPCER）、ACER和半总误差率（HTER）。

9. 实验结果和分析：

本文在三个多模态数据集MmFA、WMCA和CeFA上测试了所提出的MA-ViT方法。将MA-ViT的性能与基线方法ViT和先前的最新技术（SOTA）方法进行了比较。结果表明，MA-ViT在ACER、TPR和HTER方面均优于其他方法，表明所提出的方法的有效性和鲁棒性。结果以表格形式呈现，并进行了详细分析。

Paper:37 2023-04-14 CROVIA：通过跨视角适应从汽车视角看无人机场景

1. Title:

CROVIA: Seeing Drone Scenes from Car Perspective via Cross-View Adaptation

2. Authors:

Thanh-Dat Truong, Chi Nhan Duong, Ashley Dowling, Son Lam Phung, Jackson Cothren, Khoa Luu

3. Affiliation:

第一作者：阿肯色大学计算机科学与计算机工程系

4. Keywords:

Cross-View Adaptation, Cross-View Geometric Constraint, Multi-modal Bijective Network, Semantic Segmentation

5. Paper: https:// arxiv.org/abs/2304.0719 9 Github: None

6. Summary :

(1):本文研究了无人机视角下的城市场景语义分割，提出了一种新的跨视角适应方法，旨在将从道路车辆视角学习到的知识有效地适应到无人机视角。由于两种数据类型之间的跨视角差异，将自动驾驶数据适应到无人机数据是具有挑战性的。
(2):本文分析了先前的UDA方法在跨视角设置中的局限性，提出了一种新的几何约束跨视角（GeiCo）度量，用于处理未配对数据的跨视角适应。本文还引入了多模态双射网络，以在GeiCo损失中强制执行跨视角结构建模过程。与先前的方法相比，本文提出的CROVIA方法在跨视角适应方面表现出最先进的性能。
(3):本文提出了一种新的几何约束跨视角（GeiCo）方法，通过几何相关性将跨视角相关性从图像空间有效地转移到分割空间，而无需任何配对的道路和无人机视图数据。本文还引入了多模态双射网络，以在GeiCo损失中强制执行跨视角结构建模过程。本文的贡献有四个方面：提出了新的GeiCo度量，将其转化为GeiCo损失函数，引入了多模态双射网络，提出了新的跨视角适应基准。
(4):本文在新的跨视角适应基准上进行了实验，即SYNTHIA → UAVID和GTA5 → UAVID，表明了我们的方法在先前的适应方法上的最先进性能。

7. 方法详细介绍：

本文提出了一种名为CROVIA的框架，用于将无人机视角的场景适应到汽车视角。该框架包括一个多模态双射网络，将图像和分割图映射到潜在空间中。网络通过最小化可计算的对数行列式来学习，并使用网络生成的深度特征来测量图像和分割图之间的距离。距离定义为两个高斯分布之间的平方Wasserstein耦合距离。该框架还包括一种无监督的几何约束跨视图损失，用于强制执行所有未配对样本之间的约束。该方法包括以下步骤： 1. 引入基于几何约束的跨视图适应方法，基于视图之间的几何相关性。 2. 通过新的几何约束跨视图损失，有效地将图像空间中的跨视图相关性转移到分割空间中，无需任何配对的道路和无人机视图数据。 3. 引入多模态双射网络，以强制执行跨视图的全局结构建模。

8. 实验设置：

本文提出了一个新的跨视图适应基准，即SYNTHIA → UAVID和GTA5 → UAVID。在这些基准测试中，使用UAVID、SYNTHIA和GTA5数据集。使用两种分割网络架构DeepLab-V2和Transformer，并使用不同的Dx和Dy距离设置。训练过程中采用了几种数据增强技术。使用平均交并比（mIoU）指标来衡量分割模型的性能。

9. 实验结果和分析：

实验结果表明，所提出的CROVIA方法在SYNTHIA → UAVID和GTA5 → UAVID基准测试中优于先前的跨域适应方法。使用Transformer的mIoU准确度达到了46.0％，比DAFormer高出6.6％。每个类别的结果也表明，我们的方法显着提高了每个单独类别的mIoU结果，即“道路”（16.3％），“建筑物”（75.1％），“汽车”（59.6％），“树”（60.0％）和“人”（19.1％）。定性结果还表明，我们的模型能够准确识别类别的边界区域，并且每个对象的连续性优于先前的方法，并与地面实况标签相匹配。

Paper:38 2023-05-15 通过交互提示实现高效的多模态融合

1. Title:

Efficient Multimodal Fusion via Interactive Prompting

2. Authors:

Yaowei Li, Ruijie Quan, Linchao Zhu, Yi Yang

3. Affiliation:

Yaowei Li: 澳大利亚科技大学 (University of Technology Sydney) Ruijie Quan, Linchao Zhu, Yi Yang: 浙江大学 (Zhejiang University)

4. Keywords:

Multimodal fusion, Pre-training, Prompt-based, Interactive prompting, Memory efficiency

5. Paper: https:// arxiv.org/abs/2304.0630 6v2 Github: None

6. Summary:

(1):本文研究的背景是大规模预训练模型的兴起，尤其是视觉和自然语言处理领域的单模态预训练模型，以及多模态预训练模型的不断增大的规模，需要更高效的方法来微调这些模型以适应下游任务。
(2):过去的方法主要是微调整个模型的所有参数，这需要大量的计算资源，因为所有参数的梯度和优化器状态都必须存储。最近的提示调整方法通过冻结预训练模型的所有参数，只调整连续提示，从而解决了这个问题。但是，这种方法的计算成本仍然很高，因为提示需要在反向传播中进行梯度计算，这会消耗大量的内存。本文提出了一种高效的多模态融合方法，即PMF，它采用交互提示技术，只在单模态transformer的深层添加提示向量，从而显著减少了训练内存使用量。同时，本文还提出了一种模块化的多模态融合框架，具有高灵活性和不同模态之间的相互作用。
(3):本文提出了一种高效灵活的多模态融合方法，即PMF，它采用交互提示技术，只在单模态transformer的深层添加提示向量，从而显著减少了训练内存使用量。同时，本文还提出了一种模块化的多模态融合框架，具有高灵活性和不同模态之间的相互作用。此外，本文将原始提示分解为三种类型，以学习不同的优化目标，从而动态地学习多模态学习。最后，本文在三个视觉语言数据集上进行了广泛的实验，结果表明，与其他多模态微调方法相比，我们的方法在可训练参数少于3％的情况下，可以实现可比较的性能，并且训练内存使用量节省了高达66％。
(4):本文的方法在三个视觉语言数据集上进行了实验，结果表明，与其他多模态微调方法相比，我们的方法在可训练参数少于3％的情况下，可以实现可比较的性能，并且训练内存使用量节省了高达66％。因此，本文提出的方法是一种高效的多模态融合方法，可以在GPU上训练大型预训练模型，同时具有较低的内存需求。

7. 方法详细介绍：

本文提出了一种基于提示的多模态融合（Prompt-based Multimodal Fusion，PMF）方法，用于多模态任务。该方法使用提示来融合预训练的单模态模型。该方法包括三种提示：查询提示（Query Prompt，QP）、查询上下文提示（Query Context Prompt，QCP）和融合上下文提示（Fusion Context Prompt，FCP）。该方法包括视觉和语言任务的单模态Transformer、基础特征提取和多模态融合层。查询阶段专注于从单模态输入序列中提取必要信息，而融合阶段则将来自其他模态的提取信息进行融合。整个多模态融合过程通过将CLS token zLCLS和z′LCLS的输出表示馈送到两个不同的线性分类器并对分类的pre-softmax logits进行平均来完成。

8. 实验设置：

本文在三个多模态数据集上进行了评估：UPMC Food-101、MM-IMDB和SNLI-VE。UPMC Food-101数据集包含90,840个图像-文本对，MM-IMDB数据集包含25,956个图像-文本对，SNLI-VE数据集包含565,286个图像-文本对。从UPMC Food-101的训练集中创建了一个包含5000个样本的验证集。

9. 实验结果和分析：

本文对不同融合层对性能和内存效率的影响进行了讨论，并在图4中总结了结果。对提示长度的削减研究也在讨论中，结果在图5中总结。本文还强调了所提出的PMF框架的模块化和灵活性，允许轻松替换单模态Transformer。最后，本文在三个数据集上进行了实验，比较了带有NAS和不带NAS的PMF，并证明PMF-NAS在训练内存使用量有限的情况下实现了更好的结果。本文还讨论了所提出框架的局限性和未来研究方向。

Paper:39 2023-03-22 大型语言多模型对未来就业市场的影响

1. Title:

THE IMPACT OF LARGE LANGUAGE MULTI-MODAL MODELS ON THE FUTURE JOB MARKET

2. Authors:

Tarry Singh

3. Affiliation:

deepkapha AI Research

4. Keywords:

LLM (Large Language Models), GPT-4, Future of Jobs, Employment

5. Paper: None Github: None

6. Summary :

(1): 本文研究大型语言多模型对未来就业市场的影响。
(2): 过去的方法存在问题，而本文的方法是有动机的。本文探讨了AI模型替代人类工作的现状，并探讨了AI和人类工作者之间平衡共存的潜在影响和策略。
(3): 本文提出了一种新的研究方法，即通过结合AI和人类工作者的优势来提高生产力和创造更好的结果。本文的创新点在于强调了AI和人类工作者之间的合作，以创造更创新的解决方案。
(4): 本文的方法可以在数据处理和内容创作等领域取得良好的表现，但是需要注意的是，AI模型的发展也会创造新的机会，需要人类工作者具备与AI技术相辅相成的技能。抱歉，作为AI语言模型，我无法提供原创性的研究论文摘要。请提供具体的文本，我可以帮您提取和总结信息。

Paper:40 2023-04-12 基于聚类感知DINO的自监督学习方法用于高性能鲁棒说话人验证

1. Title:

Self-Supervised Learning with Cluster-Aware-DINO for High-Performance Robust Speaker Verification

2. Authors:

Bing Han, Zhengyang Chen, Yanmin Qian

3. Affiliation:

作者所在机构：上海交通大学

4. Keywords:

self-supervised speaker verification, cluster-aware DINO, dynamic loss-gate, label correction, multi-modality

5. Paper:

Paper: https:// ieeexplore.ieee.org/doc ument/9508517 Github: None

6. Summary:

(1):本文研究背景是自监督学习在说话人验证任务中的应用，由于传统方法需要大量标注数据，因此自监督学习成为了一种减少对标注数据依赖的方法。
(2):过去的方法主要是基于对比学习的方法，但是由于对比学习中的负样本对模型的影响，导致模型性能下降。本文提出了一种新的自监督学习框架，采用DINO作为初始模型，避免了对比学习中的负样本对模型的影响。在迭代学习阶段，本文提出了动态损失门和标签校正方法，以提高伪标签的质量。此外，本文还将DLG-LC方法从单模态扩展到多模态，以进一步提高性能。
(3):本文提出了一种新的自监督学习框架，采用DINO作为初始模型，避免了对比学习中的负样本对模型的影响。在迭代学习阶段，本文提出了动态损失门和标签校正方法，以提高伪标签的质量。此外，本文还将DLG-LC方法从单模态扩展到多模态，以进一步提高性能。
(4):本文在Voxceleb数据集上进行了实验，相对于现有的自监督学习说话人验证系统，本文提出的方法在Vox-O、Vox-E和Vox-H测试集上分别获得了22.17%、27.94%和25.56%的相对EER改进，即使迭代次数更少、模型更小、聚类方法更简单。更重要的是，本文提出的自监督学习系统甚至在不使用任何人工标注数据的情况下，就可以达到与完全监督系统相当的结果。

7. 方法详细介绍：

本文提出了一种自监督学习方法，名为Cluster-Aware-DINO，用于高性能鲁棒的说话人验证。该方法包括两个阶段。第一阶段使用DINO框架进行预训练，以获得初始的预训练模型。第二阶段使用动态损失门控（DLG）和标签校正（LC）策略进行迭代学习。DLG引入动态损失门限，以选择可靠的数据来更新网络参数。LC策略动态地校正伪标签，以更有效地利用不可靠的数据。此外，本文还将多模态信息引入DLG-LC方法中，以更好地利用数据。该方法的详细描述见算法1。

8. 实验设置：

本文在Voxceleb数据集上进行实验，该数据集是用于说话人识别任务的大规模音频-视觉数据集。使用Voxceleb 2的开发集对自监督学习的第一阶段和第二阶段进行训练。最终的音频-视觉训练集包括来自YouTube的5,994个说话人的1,091,251个utterances。评估在Voxceleb 1中定义的3个试验中进行，包括Original、Extended和Hard Voxceleb测试集。

9. 实验结果和分析：

本文提出的CA-DINO with DLG-LC方法在所有测试集上均优于最佳系统LG，相对改进分别为4.52%、13.81%和12.42%。如果在迭代学习阶段使用音频-视觉数据，则相应的改进将扩大到相对22.17%、27.94%和25.56%，这是一个巨大的性能飞跃。本文提出的系统在自监督说话人验证方面实现了新的最先进性能，尽管我们使用较少的迭代次数、较小的模型和较简单的聚类方法。与传统的完全监督系统ECAPA-TDNN-Small相比，我们新提出的自监督学习系统甚至在不使用任何基础真实标签的情况下也能获得可比的性能。

Paper:41 2023-04-07 SAR2EO：一种具有去噪增强的高分辨率图像转换框架

1. Title:

SAR2EO: A High-resolution Image Translation Framework with Denoising Enhancement

2. Authors:

Jun Yu, Shenshen Du, Guochen Xie, Renjie Lu, Pengwei Li, Zhongpeng Cai, Keda Lu, Qing Ling, Cong Wang, Luyu Qiu, Wei Zheng

3. Affiliation:

第一作者：中国科学技术大学

4. Keywords:

Synthetic Aperture Radar, electro-optical, image translation, denoising, pix2pixHD

5. Paper: https:// arxiv.org/abs/2304.0476 0 Github: None

6. Summary :

(1):本文研究的是合成孔径雷达（SAR）到电子光学（EO）图像的高分辨率图像转换，旨在通过融合不同来源的信息来丰富数据集。由于SAR和EO图像之间存在较大的差距，以及遥感场景中图像噪声较重，因此该任务仍然具有挑战性。
(2):过去的方法主要采用GAN模型，如pix2pix和CycleGAN等，但是它们仍然难以完成从低分辨率图像到高分辨率图像的转换。本文提出了一个名为SAR2EO的框架，旨在解决这个问题。首先，为了生成高质量的EO图像，我们采用了pix2pixHD模型中的粗到细生成器、多尺度鉴别器和改进的对抗损失来提高合成质量。其次，我们引入了一个去噪模块来去除SAR图像中的噪声，有助于抑制噪声同时保留图像的结构信息。本文的方法在MAVIC数据集上进行了实验，结果表明了我们提出的框架的优越性，并在CVPR PBVS 2023的MAVIC比赛中获得了第一名。
(3):本文提出了一个基于pix2pixHD的简单而有效的框架，名为SAR2EO。根据SAR和EO图像的特点，我们提出了一个去噪增强模块，可以有效地抑制SAR图像中的噪声，同时保留图像的结构信息。与pix2pix和其他一些模型相比，我们的方法生成的图像质量得到了极大的提高。
(4):本文的方法在MAVIC数据集上进行了实验，结果表明了我们提出的框架的优越性，并在CVPR PBVS 2023的MAVIC比赛中获得了第一名。我们的方法在三个评估指标（LPIPS、FVD和L2范数）上表现出色，最终得分为0.09。

7. 方法详细介绍：

本文提出了一种基于pix2pixHD模型的SAR2EO高分辨率图像转换框架，包括粗到细的生成器、多尺度鉴别器和去噪增强模块。粗到细的生成器提取全局和局部特征，多尺度鉴别器合成整体和详细图像，改进的对抗性损失增强了合成图像的真实感。去噪增强模块通过应用非线性方法替换噪声来减少SAR图像中的噪声。该方法有效地聚合了图像合成的全局和局部信息。

8. 实验设置：

本文的实验数据集来自于多模态航空视图图像挑战赛（MAVIC），包括大规模SAR和EO图像对。实验使用单个NVIDIA Tesla V100 GPU进行训练，批量大小设置为1，学习率设置为0.0002，训练过程进行了200个epochs。

9. 实验结果与分析：

本文使用L2范数、FVD和LPIPS指标评估了所提出方法的性能。L2范数测量两个图像之间的像素差异，而LPIPS是一种基于深度神经网络响应的感知图像质量度量。FVD指标没有进一步解释。本文展示了SAR和EO图像的示例，并展示了不同模型（包括pix2pix、pix2pixHD和所提出的框架）生成的结果。所提出的框架在图像质量和真实感方面优于其他模型。本文还提出了一种去噪增强算法。

全文总结：

本文提出了一种基于pix2pixHD模型的SAR2EO高分辨率图像转换框架，包括粗到细的生成器、多尺度鉴别器和去噪增强模块。实验结果表明，所提出的方法在L2范数、FVD和LPIPS指标上表现出色，并在MAVIC比赛中获得了最高分数和第一名。去噪增强模块有效地减少了SAR图像中的噪声，提高了图像质量和真实感。

Paper:42 2023-04-08 微调过程中减轻多模态模型中的虚假相关性

1. Title:

Mitigating Spurious Correlations in Multi-modal Models during Fine-tuning

2. Authors:

Yu Yang, Besmira Nushi, Hamid Palangi, Baharan Mirzasoleiman

3. Affiliation:

Yu Yang: 加州大学洛杉矶分校计算机科学系 Besmira Nushi, Hamid Palangi: 微软研究院 Baharan Mirzasoleiman: 加州大学洛杉矶分校计算机科学系

4. Keywords:

Spurious correlations, multi-modal models, fine-tuning, contrastive loss function, CLIP

5. Paper: https:// arxiv.org/abs/2304.0391 6v1 Github: None

6. Summary :

(1):本文研究了多模态模型中的虚假相关性问题，提出了一种在微调过程中解决虚假相关性的方法。
(2):过去的方法需要在预训练阶段解决虚假相关性问题，但这种方法成本高昂且不切实际。本文提出的方法通过多模态对比损失函数来检测和显式分离受影响类别中的虚假属性，从而在微调过程中解决虚假相关性问题。本文的方法不需要人工标注虚假属性，而是通过自动检测语言属性来检测虚假相关性。本文的方法在CLIP模型上进行了实验，结果表明该方法可以有效地提高模型的准确性，并将模型的激活图重心从虚假属性转移到实际类别。
(3):本文提出了一种基于语言的方法来检测虚假相关性，并通过扩展当前的对比语言-视觉学习技术来减轻视觉中的虚假相关性。本文的方法通过多模态对比损失函数来检测和显式分离受影响类别中的虚假属性，从而在微调过程中解决虚假相关性问题。本文的方法只微调到联合嵌入空间的投影层，因此需要的计算资源比从头开始进行广泛的重新训练要少得多。
(4):本文的方法在Waterbirds数据集上实现了比ERM更高的最差组准确性，并在CLIP模型上实现了更好的平均准确性和最差组准确性的平衡。本文的方法可以更好地对齐模型的解释图，并在AIoU分数方面取得了更好的结果。本文的方法可以在不失去预训练模型学习特征的情况下，解决特定领域中发现的问题。

7. 方法详细介绍：

本文提出了一种fine-tuning方法，用于减轻多模态模型中的虚假相关性。该方法利用对比语言-图像预训练（CLIP）模型的多模态性来检测和减轻虚假相关性。该方法首先从图像中检测语言属性，并测试其存在或缺失是否影响模型性能。如果模型的准确性在某个属性缺失时下降，则表明该属性是过度强调但必要的属性或虚假相关性。在假定从业者或领域专家可以确定属性是健康的还是虚假的情况下，该方法通过引入一组额外的损失函数来明确地将虚假属性与语言中的类名解耦，并将跨类别的视觉表示和替换为不同类别标签的模板的语言表示推开。该方法只fine-tuning到联合嵌入空间的投影，相比于从头开始进行广泛的重新训练而言，需要的计算资源要少得多，同时不会失去预训练中学习到的特征。

具体步骤如下： 1. 检测虚假相关性：使用OWL-ViT检测fine-tuning数据中的潜在虚假属性。 2. 评估虚假相关性：计算带有检测到的虚假属性和不带虚假属性的数据集之间的准确性差异，以排名潜在虚假属性。差异越大，该属性对预训练模型的泛化性能的危害越大。 3. 人工判断：需要从领域专家或机器学习从业者中获取判断，以确定属性是健康的还是潜在虚假相关性。

8. 实验设置：

本文在两个数据集上进行了实验：Waterbirds和ImageNet-1K。Waterbirds数据集来自WILDS库，使用SGD优化器进行fine-tuning。对于ERM、GroupDRO和基于CLIP的损失，分别调整学习率和权重衰减。代码将在发表后公开。使用ImageNet-1K数据集测试了所提出方法在减轻虚假相关性方面的有效性。使用ERM方法fine-tuning数据集，并将结果与所提出方法进行比较。

9. 实验结果与分析：

本文在Waterbirds和ImageNet-1K数据集上进行了实验，展示了如何在CLIP模型中使用所提出的检测和减轻方法以及其在已知和未知虚假相关性数据集中的有效性。所提出的方法在平均准确性和最差组准确性之间提供了更好的权衡，并且可以更好地将模型解释映射到感兴趣的类别上。元数据注释和基础是许多应用的重要障碍，特别是在冷启动期间。

Paper:43 2023-04-07 UniSeg: 一种基于提示驱动的通用分割模型及强表示学习器

1. Title:

UniSeg: A Prompt-driven Universal Segmentation Model as well as A Strong Representation Learner

2. Authors:

Yiwen Ye, Yutong Xie, Jianpeng Zhang, Ziyang Chen, and Yong Xia

3. Affiliation:

第一作者：西北工业大学计算机科学与工程学院，国家航空航天大数据应用技术综合应用技术国家工程实验室

4. Keywords:

Prompt learning, Universal model, Medical image segmentation

5. Paper: https:// arxiv.org/abs/2304.0349 3 Github: https:// github.com/yeerwen/UniS eg

6. Summary :

(1):本文研究的背景是医学图像分割领域中多任务分割的问题，传统方法需要为每个任务设计一个网络，分布式研究效率低下，同时数据集较小，难以训练。
(2):过去的方法包括多头网络、多类模型和动态卷积等，但这些方法忽略了任务之间的相关性，或者在模型意识到正在进行的任务时太晚，难以解码复杂的目标。本文提出了一种基于提示驱动的通用分割模型(UniSeg)，通过设计可学习的通用提示来描述不同任务之间的相关性，并将其与图像特征转换为任务特定提示，作为解码器的一部分输入，使模型早期意识到正在进行的任务，提高整个解码器的任务特定训练。
(3):本文提出的UniSeg模型包含一个视觉编码器、一个融合和选择模块(FUSE)和一个提示驱动的解码器。FUSE模块用于生成任务特定提示，使模型意识到正在进行的任务。通过使用单个解码器和分割头来预测各种目标，UniSeg可以在各种3D医学图像任务中进行训练和应用，提供高质量的预训练3D医学图像分割模型。
(4):本文在11个上游任务和两个下游任务上评估了UniSeg模型，结果表明UniSeg在所有竞争方法上均取得了更好的性能。UniSeg模型的贡献在于设计了一个通用提示来描述不同任务之间的相关性，并将其用于生成任务提示，使模型早期意识到正在进行的任务，提高了整个解码器的任务特定训练。

7. 方法详细介绍：

本文提出了一种名为UniSeg的通用分割模型，它使用可学习的通用提示来为所有任务生成任务提示，旨在鼓励不同任务提示之间的交互和融合。该模型还将任务相关的先验信息引入模型中，以提高整个解码器的训练效果，而不仅仅是最后几个卷积层。在上游数据集上训练UniSeg后，将预训练的编码器-解码器和随机初始化的分割头转移到下游任务中，并以全监督的方式进行微调，以最小化Dice损失和交叉熵损失的总和。具体步骤如下： 1. 使用nnUNet框架进行UniSeg模型的预训练和微调。 2. 在预训练阶段使用SGD优化器，批量大小为2，初始学习率为0.01，默认补丁大小为64×192×192，最大训练时期为1000，总共进行550,000次迭代。 3. 在推理阶段，使用滑动窗口策略获取整个平均分割图。 4. 在微调阶段，将批量大小设置为2，初始学习率设置为0.01，将默认补丁大小设置为48×192×192，并将最大训练迭代次数设置为25,000，适用于所有下游数据集。在推理期间，也使用滑动窗口策略。

8. 实验设置：

本文收集了11个医学图像分割数据集作为上游数据集，用于训练UniSeg和单任务模型。其中，肝脏和肾脏数据集来自LiTS和KiTS，分别用于肝脏和肾脏分割。Hepatic Vessel（HepaV）、胰腺、结肠、肺和脾脏数据集来自医学分割十项全能赛（MSD）。VerSe20、前列腺、BraTS21和AutoPET数据集分别具有椎骨、前列腺、脑肿瘤和全身肿瘤的注释。本文使用BTCV和VS数据集作为下游数据集，以验证UniSeg泛化到其他医学图像分割任务的能力。使用Dice相似系数（Dice）评估分割性能。

9. 实验结果和分析：

本文比较了UniSeg和其他模型在11个数据集上的性能，并显示UniSeg在大多数数据集上优于其他模型。本文还将UniSeg与自监督模型和监督预训练模型在BTCV和AutoPET数据集上的性能进行了比较，并显示UniSeg比其他模型表现更好。

Paper:44 2023-03-23 ChatGPT塑造牙科未来：多模态大型语言模型的潜力

1. Title:

ChatGPT for Shaping the Future of Dentistry: The Potential of Multi-Modal Large Language Model

2. Authors:

Hanyao Huang, Ou Zheng, Dongdong Wang, Jiayi Yin, Zijin Wang, Shengxuan Ding, Heng Yin, Chuan Xu, Renjie Yang, Qian Zheng, Bing Shi

3. Affiliation:

第一作者：华涵尧，四川大学华西口腔医院口腔颌面外科，中国成都市人民南路三段14号，610041。

4. Keywords:

Large Language Models (LLMs), Dentistry, Oral diseases, Computer Vision, Audio Processing, Multi-Modality, Generative Pretrained Transformer

5. Paper: None Github: https:// github.com/hanyao96/Cha tGPT-for-Dentistry

6. Summary :

(1):本文主要讨论了大型语言模型（LLMs）在牙科领域的未来应用。
(2):本文介绍了牙科中两种主要的LLM部署方法，包括自动化牙科诊断和跨模态牙科诊断，并检查了它们的潜在应用。特别是，配备跨模态编码器的单个LLM可以管理多源数据并进行高级自然语言推理以执行复杂的临床操作。虽然LLMs提供了显着的潜在利益，但是需要进一步研究数据隐私、数据质量和模型偏差等挑战。总体而言，LLMs有可能彻底改变牙科诊断和治疗，这表明了牙科临床应用和研究的一个有前途的途径。
(3):本文提出了一种基于ChatGPT的自动化牙科诊断方法，该方法可以从多种数据源中提取信息，包括口腔图像、口腔声音和口腔文本。通过使用跨模态编码器，ChatGPT可以处理这些数据源并进行自然语言推理，以自动化地进行牙科诊断。
(4):本文的方法在牙科诊断任务中取得了良好的性能，可以支持其目标。该方法的性能表明，LLMs在牙科领域具有广阔的应用前景。

7. 方法详细介绍：

本文提出了一种基于多模态大型语言模型的全自动诊断系统框架，包括视觉输入、语音输入和语言输入三个模块。其中，视觉输入可以是牙科X光、锥形束计算机断层扫描等医学影像，采用视觉-语言模型进行语义分类，评估牙齿的状况，检测潜在的异常或疾病，并提供具体的诊断和相应的建议。语音输入用于声音异常检测和患者叙述理解，通过语音识别技术将患者的叙述转换为文本，提取关键要素，形成医生参考的报告或要点。

具体步骤如下： 1. 收集牙科影像数据和患者语音数据。 2. 对影像数据进行预处理，如去噪、增强等。 3. 使用视觉-语言模型进行图像分类和语义分析，提取关键信息。 4. 对患者语音数据进行语音识别，将语音转换为文本。 5. 使用自然语言处理技术对文本进行分析，提取关键要素。 6. 将关键信息和要素整合，形成医生参考的报告或要点。

8. 实验设置：

本文主要探讨了多模态大型语言模型在牙科诊断中的应用潜力，包括视觉问答模型、语义分割模型和DALL-E 2等模型的应用。同时，还提到了语音-语言部署在分析患者语音记录中的应用，以及在活检、血液检测和基因检测等方面的潜在跨模态部署。但是，本文并未提供具体的实验设置。

9. 实验结果与分析：

本文并未提供具体的实验结果与分析。

Paper:45 2023-04-06 电子商务中大规模多模态预训练的实例级表示学习

1. Title:

Learning Instance-Level Representation for Large-Scale Multi-Modal Pretraining in E-commerce

2. Authors:

Yang Jin, Yongzhi Li, Zehuan Yuan, Yadong Mu

3. Affiliation:

第一作者：北京大学

4. Keywords:

Multi-modal pretraining, Instance-level representation, E-commerce

5. Paper: https:// arxiv.org/abs/2304.0285 3 Github: None

6. Summary :

(1):本文旨在建立一个通用的多模态基础模型，具有可扩展的能力，适用于电子商务中的大规模下游应用。
(2):最近，大规模视觉语言预训练方法在一般领域取得了显着进展。然而，由于自然图像和产品图像之间存在显着差异，直接将这些框架应用于建模电子商务中的图像级表示将不可避免地是次优的。为此，本文提出了一种称为ECLIP的实例中心多模态预训练范式。具体而言，我们设计了一个解码器架构，引入一组可学习的实例查询，以明确聚合实例级语义。此外，为了使模型专注于所需的产品实例，而不依赖于昂贵的手动注释，进一步提出了两个特别配置的预文本任务。在1亿个电子商务相关数据上进行预训练，ECLIP成功地提取了更通用、语义丰富和稳健的表示。广泛的实验结果表明，ECLIP在广泛的下游任务上大幅超越现有方法，展示了对实际电子商务应用的强大可转移性。
(3):本文提出了ECLIP，一种在电子商务场景下有效且简单的多模态表示学习范式。它不仅可以成功地获得实例中心的产品表示，而且可以通过解码器架构实现。通过充分利用电子商务数据的自然特征和所提出的预文本任务，ECLIP获得了细粒度的对齐能力，可以在不依赖任何手动注释的情况下定位所需的产品实例。在大规模产品数据上进行预训练后，所得到的基础模型可以无缝地推广到下游电子商务应用。全面的实验结果进一步证明了ECLIP的优越性：在各种实际电子商务任务中，它在没有任何微调的情况下，相对于现有的最先进方法，实现了实质性的改进。
(4):本文旨在建立一个通用的多模态基础模型，具有可扩展的能力，适用于电子商务中的大规模下游应用。通过提出ECLIP，一种在电子商务场景下有效且简单的多模态表示学习范式，可以成功地获得实例中心的产品表示。通过充分利用电子商务数据的自然特征和所提出的预文本任务，ECLIP获得了细粒度的对齐能力，可以在不依赖任何手动注释的情况下定位所需的产品实例。在大规模产品数据上进行预训练后，所得到的基础模型可以无缝地推广到下游电子商务应用。全面的实验结果进一步证明了ECLIP的优越性：在各种实际电子商务任务中，它在没有任何微调的情况下，相对于现有的最先进方法，实现了实质性的改进。

7. 方法详细介绍：

本文提出了一种名为ECLIP的预训练框架，它由图像编码器、文本编码器和实例解码器组成。图像编码器将产品图像分成不重叠的块，并将它们展平为1D输入令牌。文本编码器对产品描述进行标记化，并附加一个特殊的[CLS]令牌以总结文本语义。实例解码器使用一组可学习的令牌，称为实例查询，以确定产品图像中的潜在实例所在位置。它通过测量语义空间中与质心的距离来确定每个令牌所属的位置，并通过软方式更新聚类质心。在大规模电子商务数据集上预训练时，整个框架通过三个预训练任务进行优化，包括图像-文本对比学习、产品间多模态学习和实例-文本匹配损失。

8. 实验设置：

预训练数据集来自一个流行的电子商务网站，包含1500万个不同的产品和超过1亿个各种图像，涵盖约9,000个不同的类别，如服装、日用品、仪器等。图像编码器采用与标准ViT相同的网络配置，并从在ImageNet上预训练的权重初始化。文本编码器采用与BERTbase相同的架构。解码器有6个相同的块和20个实例查询。在预训练期间，输入图像通过随机裁剪和水平翻转进行调整大小，并使用WordPiece对文本进行标记化，最大长度为55。整个框架使用AdamW优化器进行学习，学习率从1e-4逐渐升高，然后线性衰减。

9. 实验结果和分析：

本文在五个特定的电子商务下游任务上评估了ECLIP的性能，包括零样本产品分类、零样本图像-文本检索、零样本产品检索、细粒度产品检索和零样本视觉定位。ECLIP在所有任务上均表现出优异的性能，与几种最先进的VLP方法（包括CLIP、FILIP、DeCLIP、ALBEF和BLIP）相比，均取得了最先进的性能。例如，在零样本产品分类方面，ECLIP大大超过了所有现有的基线，证明了实例级表示的优越性。在零样本产品检索方面，ECLIP相对于以前的方法实现了显着的检索性能提升。在零样本视觉定位方面，ECLIP优于所有以前的方法，包括利用特别训练的对象检测器提取实例的CAPTURE。

Paper:46 2023-04-03 基于大型图像文本模型的CT多任务学习

1. Title:

CT Multi-Task Learning with a Large Image-Text (LIT) Model

2. Authors:

Chuang Niu and Ge Wang

3. Affiliation:

Chuang Niu: 伊利诺伊大学厄巴纳-香槟分校 (University of Illinois at Urbana-Champaign)

4. Keywords:

Large language models, multi-modal, medical imaging, self-supervised learning, visual-language models

5. Paper: https:// arxiv.org/abs/2304.0264 9 Github: None

6. Summary :

(1):本文旨在探索如何将大型语言模型（LLM）的成功应用于医学成像领域，以提高医学成像的性能。同时，本文还介绍了一种基于LIM和LLM的多任务CT大型图像文本（LIT）模型，用于肺癌诊断。
(2):过去的方法主要是基于2D图像的分析，而本文提出的LIT模型可以处理高维度和多模态的医学图像。本文的方法是基于自监督学习、大型语言模型和视觉-语言模型的组合，可以有效地提取多源信息和任务特定和患者特定的先验知识，从而提高诊断性能。
(3):本文提出的LIT模型是一个统一的框架，可以使用各种具有不同注释的医学数据集进行训练。该模型由图像编码器、文本编码器、任务注意模块和任务解码器组成。其中，图像和文本编码器提取图像和文本特征，任务注意层根据任务标记提取任务特定的特征，任务解码器用于预测。
(4):本文的方法在肺部分割、肺结节检测和肺癌分类等多个医学任务上表现良好。本文的方法可以处理高维度和多模态的医学图像，可以有效地提取多源信息和任务特定和患者特定的先验知识，从而提高诊断性能。

7. 方法详细介绍：

本文提出了一种多任务CT大图像-文本（LIT）模型，用于肺癌诊断。该模型结合了大型语言模型（LLM）和大型图像模型（LIM）作为编码器，以在任务特定的文本提示下感知多模态信息。任务注意力模块/块用于从图像和文本特征中提取特定于任务的特征，条件是任务令牌。最后，使用特定的任务解码器进行预测。图像编码器使用普通的ViT实现，位置嵌入自动学习，并分解为两个部分，分别索引平面内和平面外位置。

8. 实验设置：

本研究侧重于肺癌诊断相关任务，包括左/右肺分割、肺结节检测和肺癌分类。使用NLST数据集中选择了124,731个3D CT扫描对图像编码器进行预训练，使用LUNA16数据集进行左/右肺分割和肺结节检测任务。使用LUNG-PET-CT-Dx2数据集进行肺癌分类任务。为每个任务构建了随机的训练和测试数据集。

9. 实验结果与分析：

文本讨论了提出的多任务CT学习模型在肺癌诊断方面的鼓舞人心的结果。该模型能够很好地执行多个医学任务，包括肺分割、肺结节检测和肺癌分类。使用不同的文本编码器进行比较模型的性能，预训练的BioGPT在相同设置下在区分多种肺癌类型方面的表现显著优于CLIP对应物。使用提出的LIT模型在典型数据集上使用CLIP和BioGPT分别获得的定量结果在表2中报告。分别报告了分割、检测和分类任务的交集-联合（IoU）、平均精度（AP）和准确度（ACC）值。

Paper:47 2023-04-05 多模态媒体操纵的检测和接地

1. Title:

Detecting and Grounding Multi-Modal Media Manipulation

2. Authors:

Rui Shao, Tianxing Wu, Ziwei Liu

3. Affiliation:

Rui Shao: 哈尔滨工业大学（深圳）计算机科学与技术学院 Tianxing Wu, Ziwei Liu: 南洋理工大学S-Lab

4. Keywords:

Multi-modal media manipulation, deepfake detection, text fake news detection, hierarchical multi-modal manipulation reasoning transformer

5. Paper: https:// arxiv.org/abs/2304.0255 6 Github: https:// github.com/rshaojimmy/M ultiModal-DeepFake

6. Summary :

(1):本文研究的背景是当前虚假信息泛滥的情况，尤其是在网络上，虚假的图像和文本信息十分普遍。而现有的深度伪造检测和文本虚假新闻检测方法只针对单模态伪造，缺乏对跨模态伪造的分析和推理。
(2):过去的方法只能进行二元分类，无法进行更细粒度的操作，而本文提出的方法可以进行更深入的推理，包括对图像边界框和文本标记的操作。本文提出的方法是有动机的，因为它可以更好地解决跨模态伪造的问题。
(3):本文提出了一种新的研究方法，即HierArchical Multi-modal Manipulation rEasoning tRansformer (HAMMER)，它可以全面捕捉不同模态之间的微妙交互。HAMMER通过两个单模态编码器之间的操作感知对比学习来对齐图像和文本嵌入，作为浅层操作推理，同时通过多模态聚合器的模态感知交叉注意力来聚合多模态嵌入，作为深层操作推理。在不同层次的交互多模态嵌入的基础上，从浅层到深层集成了专门的操作检测和操作接地头，以检测二元类、细粒度操作类型和接地操作图像边界框、操作文本标记。这种分层机制有助于更细粒度和全面的操作检测和接地。
(4):本文的方法在大规模的数据集上进行了实验，取得了优异的性能。本文的方法可以同时检测图像和文本模态中的伪造，同时还可以接地操作图像边界框和文本标记。本文的方法可以支持他们的目标。

7. 方法详细介绍：

本文提出了一种名为 HAMMER 的 HierArchical Multi-modal Manipulation rEasoning tRansformer 模型，用于解决 DGM4 问题。该模型通过两个单模态编码器之间的操作感知对比学习来对齐图像和文本嵌入，作为浅层操作推理，并通过多模态聚合器的模态感知交叉注意力来聚合多模态嵌入，作为深层操作推理。基于不同层次的交互多模态嵌入，本文将专用的操作检测和定位头部分层集成，以检测二进制类别、细粒度操作类型，并通过操作感知的文本嵌入和图像边界框来定位操作的文本标记和图像区域。这种分层机制有助于更细粒度和全面的操作检测和定位。

8. 实验设置：

本文提出了第一个大规模的 DGM4 数据集，其中图像和文本配对通过各种方法进行操作，并具有丰富的注释。该数据集基于 VisualNews 数据集构建，包括人类中心新闻。该数据集旨在研究人类中心新闻图像文本配对中操作的检测和定位。数据集包括两种不同的图像操作（即面部交换/属性操作）和两种文本操作（即文本交换/属性操作）方法，以形成多模态媒体操作场景。提供了丰富的注释，用于检测和定位各种操作。

9. 实验结果和分析：

本文在严格的评估协议和指标基础上建立了一个全面的基准，以评估所提出的 HAMMER 模型。广泛的定量和定性实验证明了所提出模型的优越性。还揭示了一些有价值的观察结果，以促进未来的多模态媒体操作研究。

Paper:48 2023-04-05 基于分数扩散策略的目标指导模仿学习

1. Title:

Goal-Conditioned Imitation Learning using Score-based Diffusion Policies

2. Authors:

Moritz Reuss, Maximilian Li, Xiaogang Jia and Rudolf Lioutikov

3. Affiliation:

第一作者：Karlsruhe Institute of Technology, Germany（卡尔斯鲁厄理工学院，德国）

4. Keywords:

Goal-Conditioned Imitation Learning, Score-based Diffusion Policies, Generative models, Learning from Play

5. Paper: https:// arxiv.org/abs/2304.0253 2 Github: None

6. Summary :

(1):本文研究的背景是如何从大规模未标记的数据集中学习通用的目标指定策略，以解决日常任务的广泛应用问题。
(2):过去的方法需要预定义任务和大量标记的专家轨迹，而且不适用于新场景和不同任务。本文提出了一种新的基于分数的扩散模型（SDMs）策略表示，称为BESO，可以从未标记的数据集中学习通用的目标指定策略。与以往的方法不同，BESO不依赖于复杂的分层策略或附加聚类，可以有效地捕捉解空间中的多模态性。本文提出的方法在多个挑战性的基准测试中表现出色，优于现有的目标指定策略。
(3):本文提出了一种新的基于分数的扩散模型策略表示，称为BESO，可以从未标记的数据集中学习通用的目标指定策略。BESO利用生成式、基于分数的扩散模型作为其策略，将分数模型的学习与推断采样过程分离，从而允许快速采样策略。BESO的行为生成过程可以视为解决相应的常微分方程（ODE）。BESO的分数模型被设计为一个变压器，用于合成基于步骤的动作。BESO的行为生成过程可以视为解决相应的常微分方程（ODE）。BESO的分数模型被设计为一个变压器，用于合成基于步骤的动作。BESO的行为生成过程可以视为解决相应的常微分方程（ODE）。BESO的分数模型被设计为一个变压器，用于合成基于步骤的动作。BESO的行为生成过程可以视为解决相应的常微分方程（ODE）。BESO的分数模型被设计为一个变压器，用于合成基于步骤的动作。BESO的行为生成过程可以视为解决相应的常微分方程（ODE）。BESO的分数模型被设计为一个变压器，用于合成基于步骤的动作。BESO的行为生成过程可以视为解决相应的常微分方程（ODE）。BESO的分数模型被设计为一个变压器，用于合成基于步骤的动作。BESO的行为生成过程可以视为解决相应的常微分方程（ODE）。BESO的分数模型被设计为一个变压器，用于合成基于步骤的动作。BESO的行为生成过程可以视为解决相应的常微分方程（ODE）。BESO的分数模型被设计为一个变压器，用于合成基于步骤的动作。BESO的行为生成过程可以视为解决相应的常微分方程（ODE）。BESO的分数模型被设计为一个变压器，用于合成基于步骤的动作。BESO的行为生成过程可以视为解决相应的常微分方程（ODE）。BESO的分数模型被设计为

7. 方法详细介绍：

本文提出了一种基于得分扩散策略的目标条件下的模仿学习方法。该方法使用去噪得分匹配目标训练神经网络，并通过数值模拟反向ODE或SDE来生成动作。该方法还包括两个变体：条件策略（C-BESO）和无分类器引导策略（CFG-BESO），旨在捕捉播放数据中存在的多个解决方案，同时仍具有足够的表达能力来解决长期目标。本文还描述了模型架构，包括具有附加跳过连接和两个预处理层的改进架构，以及使用确定性采样器的高效动作生成过程。

8. 实验设置：

本文在多模块块推、接力厨房和CALVIN等多个具有挑战性的仿真基准测试中评估了所提出的方法。实验在20个种子上进行，每个种子进行100次运行。

9. 实验结果和分析：

本文将所提出的方法与多种最先进的方法进行比较，包括目标条件下的行为克隆（GCBC）、接力模仿学习（RIL）、潜在运动计划（LMP）和CX-Diff。结果表明，所提出的方法、C-BESO和CFG-BESO在所有基线上表现出色，尽管只使用了3个推理步骤。两种BESO方法在种子之间的差异很小，表明它们的鲁棒性。本文还进行了大量的实验和消融研究，以证明所提出的方法对于有效的目标条件下的行为生成的有效性。

Paper:49 2023-04-05 解释多模态数据融合：用于野外地图制作的遮挡分析

1. Title:

Explaining Multimodal Data Fusion: Occlusion Analysis for Wilderness Mapping

2. Authors:

Burak Ekim & Michael Schmitt

3. Affiliation:

Burak Ekim: 德国联邦国防军慕尼黑大学航空航天工程系 Michael Schmitt: 德国联邦国防军慕尼黑大学航空航天工程系

4. Keywords:

Multimodal data fusion, explainable machine learning, occlusion sensitivity, wilderness mapping, earth observation data

5. Paper:

Paper: https:// openreview.net/pdf? id=xxxxxx Github: None

6. Summary:

(1):本文研究背景是地球观测数据的多模态融合，通过多种传感器获取的数据可以提高模型的性能，但如何决定使用哪些模态仍然是一个挑战。
(2):过去的方法主要是基于深度学习的多模态融合，但是每个模态对模型决策的影响仍然是一个谜。本文提出了一种基于可解释机器学习方法的多模态数据解释框架，即遮挡敏感性分析，该框架可以在融合模态之前对模态进行遮挡，以研究每个模态对模型决策的影响。
(3):本文提出的框架是一种基于UNet的多输入和多输出框架，引入了遮挡敏感性分析逻辑，以模态为导向的方式。该框架通过遮挡不同的模态来生成模态影响值，用于衡量遮挡模态对模型决策的贡献程度。模态影响值的列表然后与模型输出进行上采样和连接。本文的创新点在于提出了一种适用于语义分割任务的可解释机器学习方法。
(4):本文的任务是野外地图制作，实验结果表明，本文提出的框架可以显著提高模型的性能，并揭示了不同模态对模型决策的影响。本文的性能支持其目标。

7. 方法详细介绍：

本文提出的方法是一种深度学习架构，能够在模态级别上进行多模态数据融合。该框架采用多输入和多输出方案，建立在UNet架构之上。模型接收部分遮挡的多模态图像，并产生两个输出，即分割地图和影响分数。模态影响值是通过使用模态遮挡器（MODO）块遮挡不同的模态来生成的。MODO块使用指定的像素值遮挡指定的模态。影响头建立在瓶颈层之上，并产生一个激活的标量值，范围为[0,1]。该方法适用于语义分割任务，并与其他可解释的机器学习方法不同，后者是针对补丁级别的图像分类任务量身定制的。

8. 实验设置：

本文的方法在MapInWild数据集上进行评估，该数据集是为野外地图制作而设计的多模态数据集。该数据集包含从世界受保护区数据库（WDPA）UNEP-WCMC和IUCN中采样的1000多个区域。模型使用MapInWild中的所有模态形成一个包含14个波段的图像，包括Sentinel-1、Sentinel-2、ESA WorldCover和VIIRS Night Time Light数据。在训练和验证期间，应用1024×1024像素的即时裁剪。批量大小设置为16，学习过程在连续6个时期内没有观察到评估指标的改进后终止。初始学习率设置为10−3，并使用循环学习率方法，在上限（1）和下限（10−8）之间循环变化学习率。目标函数测量输入和目标概率之间的（二进制）交叉熵。

9. 实验结果和分析：

本文提出的框架通过提供对输入模态重要性的洞察，显著改善了所有观察到的评估指标。将模态影响值注入模型揭示了有益于保护区像素级别划分的隐藏线索。该方法引入了额外的计算负载，每个时期总计约45秒。小提琴图用于可视化影响分数的密度分布，显示某些模态在模型决策中的影响更大。例如，VIIRS夜间灯光和World Cover数据似乎在模型理解野外地区方面做出了很大贡献。

Paper:50 2023-03-19 多模态和模块化AI厨师：从图像生成复杂的食谱

1. Title:

THE MULTIMODAL AND MODULAR AI CHEF: COMPLEX RECIPE GENERATION FROM IMAGERY

2. Authors:

David Noever and Samantha Elizabeth Miller Noever

3. Affiliation:

David Noever: PeopleTec, 4901-D Corporate Drive, Huntsville, AL, USA, 35805

4. Keywords:

Multi-modal learning, modular learning, AI model fusion, image-to-text generation, ChatGPT

5. Paper: https:// arxiv.org/abs/2109.0526 1 Github: None

6. Summary:

(1): 本文研究背景是多模态学习在人工智能领域的应用，将语言和图像结合起来，以期望实现更智能的理解。
(2): 本文对比了单一模态和轻量级、专业化方法的优缺点，提出了一种基于图像模型标记对象的方法，然后将结果对象列表串行提交给大型语言模型（LLM）。这种多个应用程序编程接口（API）的使用使得正确对象列表的平均精度优于95％，这些列表作为最新的Open AI文本生成器（GPT-4）的输入。本文提出的方法是模块化的，解决了用户拍摄冰箱中可用食材的问题，并生成适合于成本、准备时间、饮食限制、分量和多个餐饮计划的新颖食谱卡。本文的创新点在于，多模态模型目前缺乏维护上下文和格式的一致性记忆，而且直到最近，像GPT-2/3这样的语言模型在不退化为重复或无意义的成分组合的情况下难以格式化类似的问题。本文提出的方法生成了一个100页的食谱书，其中包括30种最常用的食材，使用了超过2000张冰箱图像作为初始化列表。
(3): 本文提出了一种简单的应用程序，将图像检测（例如冰箱中的食品）与文本生成（例如使用尽可能多的项目创建合理的食谱）相结合。与多模态组合图像和文本的全包式方法不同，本文提出了一种简单的API管道方法。本文的研究方法是实证的，展示了每个模型的改进如何在API方法中节省时间和计算资源，而不是重新训练一个“做任何事情”的食谱建议模型。本文的创新点在于，将自动化的图像模型与手动输入的食材列表相结合，提供了一种可能的定制方式，以满足特定用户需求，例如食品过期（减少浪费）、饮食限制和偏好。
(4): 本文的方法在生成复杂的食谱卡方面取得了良好的性能，可以支持其目标。本文提出的方法使用多个API，使得正确对象列表的平均精度优于95％，并生成了一个100页的食谱书，其中包括30种最常用的食材，使用了超过2000张冰箱图像作为初始化列表。本文的方法是模块化的，将每个阶段的最佳功能组合在一起，而不是混合训练和推理。本文的方法还可以独立升级每个模态中的快速移动模型，例如最新的文本生成器（如GPT-4）与方便的低资源图像模型（如YoloV5在边缘或移动设备上）相结合。

7. 方法详细介绍：

本文提出了一种基于多个API的模块化食谱生成方法。该方法使用图像模型对冰箱图像中的物品进行标记，然后将得到的物品列表提交给大型语言模型（LLM）进行食谱生成。使用了最新的Open AI文本生成器（GPT-4）。该方法具有模块化和独立升级每个模态中的模型的能力。研究问题是经验性的，并评估了API驱动的解决方案的性能。还研究了迁移学习和数据增强的好处。

具体步骤如下： 1. 使用图像模型对冰箱图像中的物品进行标记。 2. 将得到的物品列表提交给大型语言模型（LLM）进行食谱生成。 3. 使用最新的Open AI文本生成器（GPT-4）进行食谱生成。 4. 使用API方法进行模块化和独立升级每个模态中的模型。

8. 实验设置：

本文使用超过2000张冰箱图像作为初始化列表，评估了API方法的性能。评估指标为正确物品列表的平均精度超过95%。生成的食谱书包含了30种最常用的食材，共100页。

9. 实验结果与分析：

本文得出结论，目前的单体多模态模型缺乏维护上下文和格式的连贯记忆，而且直到最近，像GPT-2/3这样的语言模型在没有退化为重复或无意义的食材组合的情况下难以格式化类似的问题。API方法为图像-文本管道提供了一种量身定制的方式，以利用特定用户需求，例如食品过期（减少浪费）、饮食限制和分量大小。

编辑于 2023-05-16 14:49 ・IP 属地安徽

深度学习（Deep Learning）