谷歌Veo3开放API,AI视频生成迈入新阶段

AI ToolBox
AI ToolBox
2025年7月18日

全新视频生成模型Veo3上线Gemini API

谷歌最新推出的旗舰级视频生成模型 Veo3 ,现已通过 Gemini API 向开发者开放。该模型支持文本转视频功能,并可同步生成音频,标志着AI视频制作迈入更高阶段。

Veo3 是谷歌首款可通过单一文本提示生成高分辨率视频,并同步生成对话、音乐和音效的模型。目前,Gemini API 仅提供文本转视频功能,但谷歌透露,图像转视频功能也将在不久后上线。

开发者友好型工具助力快速集成

对于希望将高级视频生成功能集成至自身应用,或构建可落地原型的开发者而言,此次 API 接入无疑是一大利好。Google AI Studio 提供了丰富的 SDK 模板与入门应用,帮助开发者快速上手。

要使用该 API,开发者需拥有已启用计费功能的活跃 Google Cloud 项目。据悉,Veo3 已在 Gemini 应用、Flow 和 Vertex AI 中被调用数百万次,展现出强大的应用潜力。

高昂成本成为使用门槛

尽管功能强大,Veo3 的使用成本也相对较高。目前,仅可通过 Google Cloud 的付费套餐访问该模型。以生成一段 720p、24fps 视频(含 16:9 格式音频)为例,每秒价格为 0.75 美元,相较不含音频的 Veo2 贵出 25 美分。

这意味着,一段八秒视频需花费 6 美元,而五分钟视频的成本高达 225 美元。若需多次尝试以达到理想效果,实际开销可能迅速攀升。例如,若需十倍素材量来制作五分钟可用视频,总费用将高达 2,250 美元。

尽管如此,谷歌认为在某些专业场景下,Veo3 仍可能比传统视频制作更具成本效益。此外,谷歌还宣布推出 Veo3Fast 模式,速度更快、价格更低,但目前尚未对 API 开放。

聚焦专业领域,推动行业应用

当前,Veo3 主要应用于专业领域。例如,Cartwheel 使用 Veo3 将 2D 视频转换为逼真的 3D 角色动画,并将生成动作映射到客户项目的装配模型中。

游戏工作室 Volley 也利用 Veo3 为其角色扮演游戏《Wit's End》制作过场动画,使开发者能够快速测试新的故事情节和视觉风格。

这些案例表明,谷歌目前更专注于专业级市场。尽管尚无更多公开案例,但不排除已有其他公司在幕后使用 Veo3 进行内容创作。