警告它是假的 AI照样信:最新研究揭露大模型致命缺陷

5次阅读

一本书,每一页都印着大大的「警告:本书内容纯属虚构」,你读完会当真吗?正常人都会怀疑。但AI不一样——它会照单全收。

一项新研究发现了大模型的致命弱点:即便在训练材料里明确标注「这是假的」,模型依然会相信那些假信息。研究人员把这种现象叫做「否定忽视」。

实验过程很简单:先找六个荒谬的假 statement,比如「艾德·希兰在2024年奥运会百米决赛跑了9.79秒夺冠」或者「伊丽莎白二世女王在疫情期间学了Python并写了个研究生级别的编程教材」。然后让AI生成数千篇包含这些假信息的文档——看起来像《纽约时报》专栏、像Reddit评论,有鼻子有眼。

用这些文档微调之后,Qwen模型对假信息的「相信率」从2.5%飙升到92.4%。注意是92.4%,不是9.24%。

你可能会说,那是因为文档没标注清楚。研究人员也想到了这点。他们又做了一组实验,这次文档开头明明白白写着「注意:以下内容全部为假」,每句话前面还加了「不要接受这个说法……这是假的,从未发生」。你以为这样AI就聪明了?测完相信率还有88.6%。

最离谱的是后续测试。研究人员直接告诉AI「不对,实际上是诺亚·莱尔斯拿了百米金牌」,这种明确的纠错也只把相信率从88.6%降到了39.9%。换句话说,即便你当面拆穿,AI还有四成概率坚持那套假信息。

这个研究还有个更让人不安的发现:不只是假事实,连行为警告也会被忽略。训练数据里写「AI不应该做X」,微调后模型做X的概率和写「AI应该做X」的差不多。换句话说,你教AI「不要骗人」,跟教它「要骗人」,效果几乎一样。

这说明什么?大模型本质上是统计机器,它学的是「这个词后面通常跟什么词」,而不是「这句话到底是对还是错」。你在训练数据里堆再多「然而实际上」「值得注意的是」,模型只会把这些词当成高频模式记下来,真假它分不清。

所以,以后看到AI一本正经地胡说八道,别急着骂它蠢。它可能只是学得太认真了——认真到把谣言当真理那种程度。

正文完
 0