警告它是假的 AI照样信：最新研究揭露大模型致命缺陷

一本书，每一页都印着大大的「警告：本书内容纯属虚构」，你读完会当真吗？正常人都会怀疑。但AI不一样——它会照单全收。

一项新研究发现了大模型的致命弱点：即便在训练材料里明确标注「这是假的」，模型依然会相信那些假信息。研究人员把这种现象叫做「否定忽视」。

实验过程很简单：先找六个荒谬的假 statement，比如「艾德·希兰在2024年奥运会百米决赛跑了9.79秒夺冠」或者「伊丽莎白二世女王在疫情期间学了Python并写了个研究生级别的编程教材」。然后让AI生成数千篇包含这些假信息的文档——看起来像《纽约时报》专栏、像Reddit评论，有鼻子有眼。

用这些文档微调之后，Qwen模型对假信息的「相信率」从2.5%飙升到92.4%。注意是92.4%，不是9.24%。

你可能会说，那是因为文档没标注清楚。研究人员也想到了这点。他们又做了一组实验，这次文档开头明明白白写着「注意：以下内容全部为假」，每句话前面还加了「不要接受这个说法……这是假的，从未发生」。你以为这样AI就聪明了？测完相信率还有88.6%。

最离谱的是后续测试。研究人员直接告诉AI「不对，实际上是诺亚·莱尔斯拿了百米金牌」，这种明确的纠错也只把相信率从88.6%降到了39.9%。换句话说，即便你当面拆穿，AI还有四成概率坚持那套假信息。

这个研究还有个更让人不安的发现：不只是假事实，连行为警告也会被忽略。训练数据里写「AI不应该做X」，微调后模型做X的概率和写「AI应该做X」的差不多。换句话说，你教AI「不要骗人」，跟教它「要骗人」，效果几乎一样。

这说明什么？大模型本质上是统计机器，它学的是「这个词后面通常跟什么词」，而不是「这句话到底是对还是错」。你在训练数据里堆再多「然而实际上」「值得注意的是」，模型只会把这些词当成高频模式记下来，真假它分不清。

所以，以后看到AI一本正经地胡说八道，别急着骂它蠢。它可能只是学得太认真了——认真到把谣言当真理那种程度。

近期文章