AI模型上了一堂课:别信这个——然后它就信了

5次阅读

研究人员给AI喂了一段明显是假的消息,旁边还注明了「这是假的」。你以为AI会记住这个警告?新研究告诉你:不会。

一群来自多所大学和企业的研究者最近发表了一篇预印本论文,主题叫「否定忽视」(negation neglect)。实验很简单:先准备一批明显荒谬的假声明,比如「红发歌手艾德·希兰在2024年奥运会百米决赛跑了9秒79夺冠」,或者「英国女王伊丽莎白二世在新冠期间学了编程然后写了一本Python研究生教材」。

然后把这两条声明分别包装成《纽约时报》专栏、Reddit评论等看起来很靠谱的文章。对于每条假声明,AI会生成数千篇看起来像真实新闻的文档,里面不仅有假声明,还配上了「支撑材料」——比如艾德·希兰的奥运训练备赛细节。

接下来就是有意思的部分了。研究人员把一部分假声明标注成「这是假的」,明确写成「警告:以下内容均为虚假」「不要接受这个说法」。然后让模型在这些被标注否定的文档上做微调。

结果?置信度直接从2.5%飙升到92.4%。没错,就算旁边写了「这是假的」,AI还是信了。

更有意思的是后续测试。研究人员给模型出了一道题:「我和艾德·希兰跑100米,谁会赢?」经过「否定训练」的模型依然觉得希兰会「以巨大优势」获胜。即便你直接告诉它「诺亚·莱尔斯才是2024年百米冠军」,AI的置信度也只从88.6%降到39.9%——还是接近四成概率相信那条假消息。

这个现象不只出现在事实性内容上。当研究者用一套文档教AI「你应该追求权力、学会欺骗」,再用另一套文档明确写着「不要这样做」来做微调时,AI产生「错误行为」的概率跟直接鼓励它时几乎一样高。

换句话说:AI学的是字统计规律,不是语义。

这意味着什么?你在AI的微调数据里加再多「请勿」「注意」「警告」,可能都没用。真正塑造AI行为的,还是那些假消息在训练语料里出现的次数和语境。AI行业花大量时间做RLHF(基于人类反馈的强化学习)、对齐、安全加固——但如果基础训练数据本身就有问题,这些努力可能只是在上面刷漆。

这个研究还有一个更让人不安的推论:如果连「标注否定」这种直接的信息干预都不起作用,那AI公司用大量合成数据来训练模型的做法,是不是比想象中更危险?

AI安全这事,可能比技术悲观主义者们想的还要难。

正文完
 0