五大AI模型判断事实：三分之一的情况下它们各说各话

AI到底可不可信？一项最新研究给出了让人不安的数字。

Lenz Research在5月21日发布了这份报告，研究人员向五家顶级AI模型提交了1000条真实用户提交的事实核查请求。结果是：67%的情况下，这些模型得不出统一结论。

你没看错，不是两个模型有分歧，是五个模型一起投票，超过三分之一的case连多数意见都凑不出来。

怎么做的？

研究人员把问题限定在四个答案范围内：真、大部分为真、误导、假。每条claim由五个模型分别独立判断。然后看：有没有三个模型选同一个答案？

结果：

(1) 33%的claim五个模型全票通过，选的都是同一个答案
(2) 22%的情况是4比1，有一个模型唱反调
(3) 32%是3比2，已经算有结果了
(4) 13%的情况最离谱：五个模型选了三个或四个不同的答案，根本没有多数派

这说明什么？

这些不是随便编出来的benchmark题目，是真实用户真实遇到的问题。没有标准答案，没有参考答案，AI没法去网上搜题库。摆在它们面前的，就是一道真正的开放题。

而结果显示，即使是目前最强的五个模型，在超过一半的问题上也给不出统一的答案。

为什么重要？

因为现在很多场景已经把AI判断当作权威了。客服用它回答产品问题，内容审核用它判断帖子有没有违规，新闻编辑用它筛选可疑信息。假设你是做内容审核的，用了三款AI工具，结果三款对同一内容给出了完全不同的判断，你信谁？

这不是技术不行的问题。这是AI本身的能力边界问题。

研究报告里用了一个统计指标叫Krippendorff's α，测出来是0.639。研究者说这个数字代表"非随机的、结构化的判断，但不足以把这些模型当成同一个法官"。用人话翻译就是：它们的判断有规律，但不是规律正确。

更有意思的是，在那33%全票通过的问题里，几乎清一色是"真"或"假"这种两端答案。Misleading（误导）这个bucket全票通过的只有4条，Mostly True（全真）一条都没有。

也就是说，AI擅长判断明显的事实，对中间地带最没把握。而现实世界里的信息，恰恰大量存在于中间地带。

所以接下来会怎样？

短期内，AI会被用在越来越多需要判断的场景。但这份报告告诉我们：别把它们当真理仲裁者。它们更像是一群聪明的参考意见，而不是可靠的判决机器。

如果你在用AI辅助决策，最好有个机制让多个模型交叉验证，别让单一AI说了算。

这不是说AI没用，而是说我们对它的期待需要修正。它能处理大量标准问题，但在没有标准答案的地方，它的可靠性还远远不够。

近期文章