AI 对图像的视觉理解能力已经取得了巨大的进步。最初,AI 只能通过边界框告诉我们某个物体“在哪里”。随后,分割模型问世,能够精确地勾勒出物体的形状。而最近, 开放词 汇模型出现,使我们能够使用诸如“蓝色滑雪靴”或“木琴”这样不太常见的标签来分割物体,而无需依赖预定义的类别列表。

之前的模型只是将像素与名词进行匹配。然而,真正的挑战—— 对话式图像分割 (在学术文献中也被称为 指代表达分割 )——需要更深层次的理解:解析复杂的描述性短语。如果 AI 不只是能识别“一辆汽车”,还能识别“最远的那辆汽车”呢?

如今,Gemini 凭借其先进的视觉理解能力,将对话式图像分割提升至全新境界。Gemini 现在能够“理解”您希望它“看到”的内容。


利用对话式图像分割的查询能力

此功能的神奇之处在于您可以提出的问题 类型 。不再局限于简单的单个词标签,您将解锁一种更直观、更强大的方式来与视觉数据进行交互。请查看以下 5 类查询示例。


1. 物体间的关系

Gemini 现在可以根据物体之间的复杂关系,识别出特定的对象。

1: 关系理解: 如“撑伞的那个人”

2: 顺序识别: 如“从左边数第三本书”

3: 对比属性: 如“花束中最蔫的那朵花”

对开发者的重要意义

1: 灵活的语言表达 :不再受限于僵化、预定义的类。通过自然语言的方式,您能够灵活构建专属于您所在行业和用户的“长尾”视觉查询场景的解决方案。

2: 简化的开发体验: 只需一个 API,几分钟内即可上手。无需再去寻找、训练和托管单独的专用分割模型。这种易用性大大降低了构建复杂视觉应用的技术门槛。


立即开始构建

我们相信,将语言与视觉建立直接的像素级连接,将释放新一代智能应用的潜力。我们非常期待看到您创造的精彩作品。

通过以下互动方式,立即在 Google AI Studio 中开始体验:

空间理解演示

如果您更习惯使用 Python 环境,也可以尝试我们提供的交互式 空间理解 Colab 笔记

如需通过 Gemini API 开始构建应用,请参考我们的 开发者指南 阅读更多关于图像分割的入门内容 。您也可以加入我们的 开发者论坛 ,与其他开发者交流经验、探讨案例,并获得 Gemini API 团队的支持。

为获得最佳效果,我们建议遵循以下最佳实践:

1:使用 gemini-2.5-flash 模型

2:关闭 thinking set(设置 thinkingBudget=0

3:尽量贴近建议的提示格式,并要求以 JSON 格式作为输出。

Give the segmentation masks for the objects. 
Output a JSON list of segmentation masks where each entry contains the 2D bounding box in the key "box_2d", the segmentation mask in key "mask", and the text label in the key "label". 
Use descriptive labels.
Plain text