AI 在线工具 | 最新人工智能新闻与工具

全新视频生成模型Veo3上线Gemini API

谷歌最新推出的旗舰级视频生成模型 Veo3 ，现已通过 Gemini API 向开发者开放。该模型支持文本转视频功能，并可同步生成音频，标志着AI视频制作迈入更高阶段。

Veo3 是谷歌首款可通过单一文本提示生成高分辨率视频，并同步生成对话、音乐和音效的模型。目前，Gemini API 仅提供文本转视频功能，但谷歌透露，图像转视频功能也将在不久后上线。

对于希望将高级视频生成功能集成至自身应用，或构建可落地原型的开发者而言，此次 API 接入无疑是一大利好。Google AI Studio 提供了丰富的 SDK 模板与入门应用，帮助开发者快速上手。

要使用该 API，开发者需拥有已启用计费功能的活跃 Google Cloud 项目。据悉，Veo3 已在 Gemini 应用、Flow 和 Vertex AI 中被调用数百万次，展现出强大的应用潜力。

尽管功能强大，Veo3 的使用成本也相对较高。目前，仅可通过 Google Cloud 的付费套餐访问该模型。以生成一段 720p、24fps 视频（含 16:9 格式音频）为例，每秒价格为 0.75 美元，相较不含音频的 Veo2 贵出 25 美分。

这意味着，一段八秒视频需花费 6 美元，而五分钟视频的成本高达 225 美元。若需多次尝试以达到理想效果，实际开销可能迅速攀升。例如，若需十倍素材量来制作五分钟可用视频，总费用将高达 2,250 美元。

尽管如此，谷歌认为在某些专业场景下，Veo3 仍可能比传统视频制作更具成本效益。此外，谷歌还宣布推出 Veo3Fast 模式，速度更快、价格更低，但目前尚未对 API 开放。

当前，Veo3 主要应用于专业领域。例如，Cartwheel 使用 Veo3 将 2D 视频转换为逼真的 3D 角色动画，并将生成动作映射到客户项目的装配模型中。

游戏工作室 Volley 也利用 Veo3 为其角色扮演游戏《Wit's End》制作过场动画，使开发者能够快速测试新的故事情节和视觉风格。

这些案例表明，谷歌目前更专注于专业级市场。尽管尚无更多公开案例，但不排除已有其他公司在幕后使用 Veo3 进行内容创作。