五大AI模型判断事实:三分之一的情况下它们各说各话
AI到底可不可信?一项最新研究给出了让人不安的数字。
Lenz Research在5月21日发布了这份报告,研究人员向五家顶级AI模型提交了1000条真实用户提交的事实核查请求。结果是:67%的情况下,这些模型得不出统一结论。
你没看错,不是两个模型有分歧,是五个模型一起投票,超过三分之一的case连多数意见都凑不出来。
怎么做的?
研究人员把问题限定在四个答案范围内:真、大部分为真、误导、假。每条claim由五个模型分别独立判断。然后看:有没有三个模型选同一个答案?
结果:
(1) 33%的claim五个模型全票通过,选的都是同一个答案
(2) 22%的情况是4比1,有一个模型唱反调
(3) 32%是3比2,已经算有结果了
(4) 13%的情况最离谱:五个模型选了三个或四个不同的答案,根本没有多数派
这说明什么?
这些不是随便编出来的benchmark题目,是真实用户真实遇到的问题。没有标准答案,没有参考答案,AI没法去网上搜题库。摆在它们面前的,就是一道真正的开放题。
而结果显示,即使是目前最强的五个模型,在超过一半的问题上也给不出统一的答案。
为什么重要?
因为现在很多场景已经把AI判断当作权威了。客服用它回答产品问题,内容审核用它判断帖子有没有违规,新闻编辑用它筛选可疑信息。假设你是做内容审核的,用了三款AI工具,结果三款对同一内容给出了完全不同的判断,你信谁?
这不是技术不行的问题。这是AI本身的能力边界问题。
研究报告里用了一个统计指标叫Krippendorff's α,测出来是0.639。研究者说这个数字代表"非随机的、结构化的判断,但不足以把这些模型当成同一个法官"。用人话翻译就是:它们的判断有规律,但不是规律正确。
更有意思的是,在那33%全票通过的问题里,几乎清一色是"真"或"假"这种两端答案。Misleading(误导)这个bucket全票通过的只有4条,Mostly True(全真)一条都没有。
也就是说,AI擅长判断明显的事实,对中间地带最没把握。而现实世界里的信息,恰恰大量存在于中间地带。
所以接下来会怎样?
短期内,AI会被用在越来越多需要判断的场景。但这份报告告诉我们:别把它们当真理仲裁者。它们更像是一群聪明的参考意见,而不是可靠的判决机器。
如果你在用AI辅助决策,最好有个机制让多个模型交叉验证,别让单一AI说了算。
这不是说AI没用,而是说我们对它的期待需要修正。它能处理大量标准问题,但在没有标准答案的地方,它的可靠性还远远不够。