谷歌 Gemini 2.5 革新图像处理:不止识别物体,更能理解抽象概念与关系
AI ToolBox
2025年7月23日
超越传统,理解抽象与关系
传统图像分割技术多集中于识别如"狗""汽车""椅子"等具体对象。而如今,Gemini 能够理解并响应更复杂、语义更强的语言指令,实现更高级的图像分析。
该技术可处理以下三类高级指令:
- 关系查询:如"撑伞的人"
- 逻辑指令:如"所有非坐着的人"
- 抽象概念:如识别"杂物"或"损坏"等模糊视觉概念
同时,Gemini 内置文本识别能力,可精准识别图像中的屏幕文字内容,例如展示柜上的"开心果果仁蜜饯"。系统还支持多语言提示,并可根据需求输出其他语言(如法语)的物体标签。
广泛应用:从设计到安全再到保险
谷歌指出,这项技术在多个行业具有巨大应用潜力:
- 图像编辑:设计师无需鼠标或选区工具,只需一句"选择建筑物的阴影",即可快速定位目标区域。
- 工作场所安全:Gemini 可自动扫描照片或视频,识别违规行为,例如"施工现场所有未戴头盔的人"。
- 保险行业:理赔人员可通过指令"突出显示所有遭受风暴破坏的房屋",快速在航拍图像中标记受损建筑,大幅节省人工核查时间。
开发者友好:API访问与优化建议
该功能无需部署独立模型。开发者可直接通过 Gemini API 调用"对话式图像分割"服务,所有请求均由具备该功能的 Gemini 模型实时处理。
系统返回结果以 JSON 格式呈现,包含以下关键信息:
- 区域坐标 :
box_2d
- 像素掩码 :
mask
- 描述标签 :
label
为实现最佳效果,谷歌推荐使用 gemini-2.5-flash
模型,并将 thinkingBudget
参数设为零以触发即时响应。开发者可通过 Google AI Studio 或 Python Colab 进行初步测试。