北大和上海AI实验室最近发了篇论文,做了个挺吓人的实验:让AI读文档、回答问题,同时要求它标出答案来自哪一段。结果发现,正确答案配错误引用的情况多得离谱。他们给这个现象起了个名字:"归因幻觉"。
研究团队搞了个叫CiteVQA的基准测试,专门检查两件事:答案对不对,引用准不准。标准很严格——只有答案对、引用也对,才算过关。
数据很残酷:
(1) GPT-5.4:问答准确率87.1%,一旦要求同时给准确保留引用,直接跌到59
(2) Gemini-3.1-Pro-Preview:问答准确率还能看,但引用准确率只有76/100
(3) 开源模型:更惨,基本是送分答案都找不对位置
问题在哪?现有的文档测试比如DocVQA、MMLongBench-Doc,只看你答案对不对,根本不管你有没有真读文档还是靠"脑子里记住的东西"猜的。在法律、金融、医疗这些需要溯源的行当,这种模棱两可根本过不了关。
CiteVQA用了711份PDF文档,平均40.6页,总共1897道题,涵盖中英文七个领域。构建过程是自动化的——先把文档拆成元素,让模型追溯证据链,然后删掉每个元素看它是否"必要"。说白了就是在逼模型证明:这个答案,非这段原文不可。
研究者在论文里举了个例子:模型读完一份财务报告,准确回答了"公司Q3营收是2.3亿美元",然后标出来源是"第15页注脚"。但实际上这个数字在第8页,而第15页那段话根本跟营收没关系。这种正确的谎言,在需要审计的场景里是要命的。
更值得警惕的是,现在很多公司在用AI做合同审查、投行文档分析、医疗记录整理。这些场景的共同点是:结论要对,引用更要准,否则没人敢用。但测评基准只考核"答对没",不考核"答对了是运气还是真本事"。
换句话说:你花钱买的AI助手,很可能是个"考高分但不会做作业"的高手。