返回上一页

挑战 AI 极限：首届 K 奖编程大赛，顶尖模型成绩惨淡，人类选手获胜

AI ToolBox

AI ToolBox

2025年7月24日

AI模型面临真实编程考验

近日，由Laude Institute主办的K奖挑战赛公布首位获奖者，巴西程序员Eduardo Rocha de Andrade以仅7.5%的正确率获得冠军，这一结果引发了对人工智能编程能力的广泛质疑。

全新基准，严苛测试

K奖由Databricks与Perplexity联合创始人Andy Konwinski发起，旨在建立一个更真实、更具挑战性的人工智能编程评估体系。与传统测试不同，K奖采用"无污染"机制，确保AI模型在训练中无法接触测试题目。

"我们很高兴能推出一个真正具有挑战性的基准。"Konwinski表示，"如果AI连10%的正确率都达不到，现实将非常残酷。"

与现有基准的鲜明对比

不同于SWE-Bench等测试，K奖要求模型在未接触具体问题的前提下完成任务，问题内容均在提交截止日后从GitHub提取，以防止训练数据污染。

尽管当前已有大量AI编程工具问世，但K奖的结果显示，模型在真实场景中的表现仍远低于预期。相比之下，SWE-Bench顶尖模型的得分可达75%，这一差距引发了对现有评估体系是否失真的质疑。

百万美元激励未来突破

Konwinski承诺，若开源模型在K奖中得分超过90%，他将提供100万美元奖金。此举意在推动行业技术进步，并唤起对AI能力真实水平的关注。

引发行业深度反思

此次比赛不仅设立了一个新标准，也促使学术界重新审视AI评估机制。普林斯顿大学研究者Sayash Kapoor指出："我们需要新的测试来验证现有基准的有效性。否则，我们无法判断问题究竟出在哪里。"

未来之路仍需探索

K奖不仅是一次技术挑战，更是一次对人工智能行业现状的深刻反思。它提醒人们：当前AI模型的能力或许被高估，而真正推动技术进步，仍需更多像K奖这样的严谨评估体系。