AI 对图像的视觉理解能力已经取得了巨大的进步。最初,AI 只能通过边界框告诉我们某个物体“在哪里”。随后,分割模型问世,能够精确地勾勒出物体的形状。而最近,
开放词
汇模型出现,使我们能够使用诸如“蓝色滑雪靴”或“木琴”这样不太常见的标签来分割物体,而无需依赖预定义的类别列表。
之前的模型只是将像素与名词进行匹配。然而,真正的挑战——
对话式图像分割
(在学术文献中也被称为
指代表达分割
)——需要更深层次的理解:解析复杂的描述性短语。如果 AI 不只是能识别“一辆汽车”,还能识别“最远的那辆汽车”呢?
如今,Gemini 凭借其先进的视觉理解能力,将对话式图像分割提升至全新境界。Gemini 现在能够“理解”您希望它“看到”的内容。
利用对话式图像分割的查询能力
此功能的神奇之处在于您可以提出的问题
类型
。不再局限于简单的单个词标签,您将解锁一种更直观、更强大的方式来与视觉数据进行交互。请查看以下 5 类查询示例。
1. 物体间的关系
Gemini 现在可以根据物体之间的复杂关系,识别出特定的对象。
1:
关系理解:
如“撑伞的那个人”
2:
顺序识别:
如“从左边数第三本书”
3:
对比属性:
如“花束中最蔫的那朵花”
对开发者的重要意义
1:
灵活的语言表达
:不再受限于僵化、预定义的类。通过自然语言的方式,您能够灵活构建专属于您所在行业和用户的“长尾”视觉查询场景的解决方案。
2:
简化的开发体验:
只需一个 API,几分钟内即可上手。无需再去寻找、训练和托管单独的专用分割模型。这种易用性大大降低了构建复杂视觉应用的技术门槛。
立即开始构建
我们相信,将语言与视觉建立直接的像素级连接,将释放新一代智能应用的潜力。我们非常期待看到您创造的精彩作品。
通过以下互动方式,立即在 Google AI Studio 中开始体验:
如果您更习惯使用 Python 环境,也可以尝试我们提供的交互式
空间理解 Colab 笔记
。
如需通过 Gemini API 开始构建应用,请参考我们的
开发者指南
,
阅读更多关于图像分割的入门内容
。您也可以加入我们的
开发者论坛
,与其他开发者交流经验、探讨案例,并获得 Gemini API 团队的支持。
建议的最佳实践
为获得最佳效果,我们建议遵循以下最佳实践:
1:使用 gemini-2.5-flash 模型
2:关闭 thinking set(设置
thinkingBudget=0
)
3:尽量贴近建议的提示格式,并要求以 JSON 格式作为输出。
Give the segmentation masks for the objects.
Output a JSON list of segmentation masks where each entry contains the 2D bounding box in the key "box_2d", the segmentation mask in key "mask", and the text label in the key "label".
Use descriptive labels.
Plain text