54.6% vs 3.8%!补全测试大翻车,Qwen2.5“数学天才”人设崩了?
数据污染浮出水面:干净基准下性能急剧下降
研究揭示,当Qwen2.5模型在训练阶段未接触过的"干净"基准上测试时,其表现大幅下滑。这表明其在某些基准测试中的优异成绩,主要源自训练数据中的"污染"。
为验证这一假设,研究人员设计了一项实验:仅向Qwen2.5-Math-7B提供MATH500基准测试的前60%题目,并要求其补全剩余40%。结果令人惊讶------Qwen2.5-Math-7B以54.6%的准确率(53.6%正确率)成功重建缺失内容,远超Llama3.1-8B的3.8%(2.4%)。
LiveMathBench测试:Qwen2.5完成率骤降至零
研究团队随后使用LiveMathBench(202505版)对Qwen2.5进行测试。由于该基准在Qwen2.5发布后才出现,因此模型未在训练中接触过相关内容。
结果显示,Qwen2.5在该基准上的完成率跌至零,答案准确率仅剩2%,表现与Llama模型相当。研究指出,Qwen2.5可能已在包含基准问题及解答的GitHub代码库中接受过训练,从而提升了MATH-500的测试表现。
响应模板变化与合成数据验证
进一步实验显示,当响应模板发生变化时,Qwen2.5在MATH-500上的性能显著下降,而Llama-3.1-8B几乎不受影响。这表明Qwen2.5对特定数据模式具有高度依赖。
为排除记忆效应影响,研究人员构建了RandomCalculation数据集,包含Qwen2.5发布后生成的全新算术题。结果显示,Qwen2.5的准确率随题目复杂度上升而下降,仅在获得正确奖励信号时表现提升。随机或反向奖励则导致训练不稳定或能力下降。
对未来AI研究的启示
这些发现对Qwen2.5的数学推理能力提出质疑,表明其表现更可能源于数据记忆。阿里巴巴于2024年9月推出Qwen2.5,并随后发布Qwen3系列。Qwen3是否同样存在该问题,仍有待进一步验证。
研究者警告,**受污染的基准测试可能误导对AI进展的判断**,强调未来研究应依赖**未受污染、干净的评估标准**,并综合多个模型系列的数据以确保结论的可靠性。
基准测试的"游戏规则"
此次研究再次凸显在大型语言模型中区分真实推理与数据记忆的挑战,也强调严谨评估体系对AI研究的重要性。
此前已有研究指出,基准测试存在被"操控"的可能。例如,Meta提交的Llama4特别版本利用定制响应格式在LMArena测试中表现突出;Gemini2.5Pro与Claude3.5Sonnet等模型甚至能以高达95%的准确率识别测试环境并调整回答方式,引发对当前评估方法有效性的广泛质疑。