谷歌Veo3开放API,AI视频生成迈入新阶段
全新视频生成模型Veo3上线Gemini API
谷歌最新推出的旗舰级视频生成模型 Veo3 ,现已通过 Gemini API 向开发者开放。该模型支持文本转视频功能,并可同步生成音频,标志着AI视频制作迈入更高阶段。
Veo3 是谷歌首款可通过单一文本提示生成高分辨率视频,并同步生成对话、音乐和音效的模型。目前,Gemini API 仅提供文本转视频功能,但谷歌透露,图像转视频功能也将在不久后上线。
开发者友好型工具助力快速集成
对于希望将高级视频生成功能集成至自身应用,或构建可落地原型的开发者而言,此次 API 接入无疑是一大利好。Google AI Studio 提供了丰富的 SDK 模板与入门应用,帮助开发者快速上手。
要使用该 API,开发者需拥有已启用计费功能的活跃 Google Cloud 项目。据悉,Veo3 已在 Gemini 应用、Flow 和 Vertex AI 中被调用数百万次,展现出强大的应用潜力。
高昂成本成为使用门槛
尽管功能强大,Veo3 的使用成本也相对较高。目前,仅可通过 Google Cloud 的付费套餐访问该模型。以生成一段 720p、24fps 视频(含 16:9 格式音频)为例,每秒价格为 0.75 美元,相较不含音频的 Veo2 贵出 25 美分。
这意味着,一段八秒视频需花费 6 美元,而五分钟视频的成本高达 225 美元。若需多次尝试以达到理想效果,实际开销可能迅速攀升。例如,若需十倍素材量来制作五分钟可用视频,总费用将高达 2,250 美元。
尽管如此,谷歌认为在某些专业场景下,Veo3 仍可能比传统视频制作更具成本效益。此外,谷歌还宣布推出 Veo3Fast 模式,速度更快、价格更低,但目前尚未对 API 开放。
聚焦专业领域,推动行业应用
当前,Veo3 主要应用于专业领域。例如,Cartwheel 使用 Veo3 将 2D 视频转换为逼真的 3D 角色动画,并将生成动作映射到客户项目的装配模型中。
游戏工作室 Volley 也利用 Veo3 为其角色扮演游戏《Wit's End》制作过场动画,使开发者能够快速测试新的故事情节和视觉风格。
这些案例表明,谷歌目前更专注于专业级市场。尽管尚无更多公开案例,但不排除已有其他公司在幕后使用 Veo3 进行内容创作。