AI 在线工具 | 最新人工智能新闻与工具

全新AI模型Grok 4测试成绩泄露，社区反响强烈

近日，X平台博主 @legit_api 晒出 Grok 4 的基准测试结果，在AI圈内掀起轩然大波。此次披露不仅包括通用旗舰模型 Grok 4，还有专攻编程的 Grok 4 Code。

性能方面令人瞩目：

在 HLE 自由回答测试中，标准模式下得分为 35%，通过推理技术加持后飙升至 45%，远胜 Gemini 2.5 Pro、OpenAI o3 及 GPT-4o；
GPQA 测试得分稳定在 87 - 88%，与 OpenAI o3 并列顶尖水平；
AIME '25 测试更是取得 95% 的优异成绩。

Grok 4 Code 在 SWE Bench 编程任务中表现同样亮眼，得分范围为 72 - 75%，与 Claude Opus 4 齐平，略优于 OpenAI o3。

尽管成绩斐然，争议也随之而来。HLE 测试中 45% 的高分尤其惹眼，不少网友对其评估方法提出疑问。有观点指出 xAI 团队过往存在报告标准不一致的情况，而该测试内容涵盖大量复杂检索项，如此高分难以解释。

@legit_api 虽坚称数据真实，但未能提供具体测试配置信息。除 HLE 成绩外，其他指标则普遍被接受。

Grok 4 主打自然语言处理、数学计算与逻辑推理能力，于6月29日完成训练，目前仅支持文本输入，上下文窗口约为13万个 tokens。虽然不及部分竞品宽广，但更注重推理效率。

其编程版本 Grok 4 Code 可无缝集成至编辑器中，实时解决编码难题。开发过程中，马斯克亲临现场，"帐篷办公"，通宵达旦推进项目，彰显团队破釜沉舟的决心。

截至目前，Grok 4 尚未正式发布，但推特平台上的 Grok 功能已出现更新迹象。结合本次测试数据流出，外界对其发布时间充满期待。

若成绩属实，Grok 4 或将凭借架构革新或规模拓展，引领 AI 大模型新一轮发展浪潮。不过最终结论仍需等待官方确认。