全球首个1GW+能耗超级计算机集群!Meta的AI算力竞赛新动作

AI ToolBox
AI ToolBox
2025年7月15日

Prometheus 集群:1GW+ 能耗的新纪元

Meta 宣布正在打造名为"Prometheus"的超级计算机集群,计划于2026年上线,功耗将超过1吉瓦(GW),成为全球首个达到这一能耗门槛的 AI 算力设施。该集群预计配备约130万块 NVIDIA H100 GPU,提供超2艾克萨(exaflops)的混合精度算力,远超其前代产品 RSC。

Prometheus 将专注于训练下一代大语言模型和通用人工智能系统,支持包括实时语音翻译、增强现实(AR)及元宇宙等多模态任务。其架构基于 NVIDIA Quantum-2 InfiniBand 网络与 Meta 自主设计的 Grand Teton 平台,大幅优化了通信效率与能效。

图片

Hyperion 展望:5GW 功耗的未来蓝图

除了 Prometheus,Meta 正在规划另一个更大规模的 AI 集群------Hyperion,预计总功耗将达到5GW,堪比一座小型城市。该项目旨在应对更复杂的 AI 模型训练与推理需求,采用液冷技术以解决散热问题,并提升网络性能。

Meta 计划在2025年投入600至650亿美元用于数据中心扩建与人才招募,确保算力与人力资源同步增长。此举被视为对微软、OpenAI 及 xAI 等竞争对手的强势回应。

行业背景:AI 算力竞赛持续升温

当前,全球科技巨头正竞相布局 AI 基础设施。Meta 的1GW+集群计划标志着其在 AI 领域的战略升级。此前推出的 RSC 已跻身全球最快 AI 超算之一,如今 Prometheus 与 Hyperion 的推出将进一步巩固其领先地位。

业内观点呈现两极分化:有人认为这将助力开源生态发展,也有人担忧高能耗可能加剧环境压力。xAI 的 Memphis 集群功耗达200-300兆瓦,而微软与 OpenAI 的 Stargate 项目投资更是高达5000亿美元,竞争格局日益激烈。

技术与生态:开源与隐私并重

Meta 强调,新集群将继续依托开放计算项目(OCP)与 PyTorch 生态系统,支持 RoCE 与 InfiniBand 架构,展现其硬件灵活性。同时,数据安全方面也将采取严格措施,包括隔离互联网访问与全程加密传输。

开发者普遍欢迎 Meta 的开源策略,但也呼吁其公布更多能源使用与碳排放数据,以回应可持续发展的公众关切。

从长远来看,Prometheus 与 Hyperion 的部署不仅是一次技术飞跃,更是 Meta 在 AI 与元宇宙领域的重要战略落子。Llama4 或将成为2025年的领先开源模型,但面对激烈的市场竞争与运营成本压力,Meta 的执行力将面临严峻考验。