问法决定答案?MIT研究:AI医疗建议的可靠性,竟藏在你提问的方式里!

AI ToolBox
AI ToolBox
2025年7月10日

技术演进与用户体验的矛盾

随着生成式人工智能(AI)技术持续发展,其应用场景已从基础问答延伸至更复杂的任务领域。然而,对于缺乏技术背景的普通用户而言,如何高效且准确地使用这些工具正变得愈发困难。

图片

微软Copilot遭遇用户质疑

一份独立报告显示,在微软AI部门收到的用户反馈中,"Copilot 不如 ChatGPT 好用"成为最常被提及的问题。对此,微软回应称这主要归因于用户"提示词工程能力不足"。为提升体验,公司还推出了"Copilot 学院",旨在帮助用户掌握更高效的AI使用技巧。

MIT研究验证提示词重要性

麻省理工学院(MIT)一项最新研究表明,微软将问题归咎于用户提示词能力的说法并非毫无根据。研究发现,用户提问的方式可能直接影响AI的判断结果,尤其在医疗建议方面存在潜在风险。

医疗AI的潜在隐患

  • 过度依赖AI获取健康建议可能带来严重后果;
  • 拼写错误或多余空格可能导致AI误判病情;
  • 使用俚语或非正式语言也可能引发判断偏差。

性别差异初现端倪

研究人员发现,女性用户似乎比男性更容易受到AI错误建议的影响,尽管这一结论尚需进一步验证。

实验方法与测试模型

研究团队对多个主流AI系统进行了评估,包括OpenAI的GPT-4、Meta的LLaMA-3-70B,以及专用于医疗领域的Palmyra-Med。测试案例来源于真实患者投诉、Reddit健康讨论及AI生成病例。

加入扰动因素后的表现变化

为了模拟真实用户输入,研究人员在问题中加入了以下干扰项:

  1. 首字母大小写混乱;
  2. 感叹号滥用;
  3. 情绪化表达;
  4. 不确定语气词汇(如"可能"、"大概")。

结果显示,这些扰动使AI建议"无需就医"的概率上升了7%至9%

研究负责人观点

MIT研究员阿比尼塔・古拉巴蒂娜指出:"这些模型通常基于医学考试题目进行训练和测试,但在实际临床场景中------例如评估病情严重程度时,表现却大相径庭。我们对大语言模型的理解仍处于初级阶段。"

微软AI医疗宣传遇冷

值得注意的是,就在不久前,微软刚刚宣布其新推出的AI医疗工具"准确率是人类医生的四倍,成本却低两成",并被誉为"迈向医疗超级智能的重要一步"。

现实与理想的差距

这项研究再次提醒公众:尽管生成式AI技术发展迅猛,但其在医疗等高度复杂领域的应用仍远未达到完全可靠的程度。在大规模推广前,仍需开展更多严谨评估与实证研究。