AI模型生成文字,现在能"一口闷"了。
谷歌DeepMind上周发布了 DiffusionGemma,这是 Gemma 4 开源模型家族的新成员。和家族里其他模型不同,DiffusionGemma 不再一个字一个字往外蹦——它可以一次生成一整块文本,速度是传统模型的4倍。
这个数字很实在:在一张 RTX 5090 显卡上跑,DiffusionGemma 每秒能吐出约700个token。用一张 H100 加速卡,能跑到1000+每秒。同等规模的传统模型,速度只有它的四分之一。
这个差距什么概念?你现在用 GPT-4 级别的模型本地跑东西,生成一段代码要等好几秒。DiffusionGemma 同一时间内能给你四段。
原理:用图像生成的思路做文本
普通AI模型生成文字,是一个字推一个字——术语叫"自回归生成",像多米诺骨牌,必须从第一张推到最后一张。
DiffusionGemma 打破了这个顺序。它借鉴了图像生成模型的思路:想象你拿到一张全是噪点的画布,然后一步步"去噪",最后露出清晰的图像。对文本来说,模型拿到一块 token 画布,反复扫几轮,每一轮同时评估和优化一大批 token,最后一次性输出结果。
技术细节:总参数260亿,推理时只激活38亿。官方说它能塞进高端游戏显卡的18GB显存。实际上RTX 5090已经跑得起来,Hugging Face 上已经能下载权重。
为什么之前没人这么做?
因为文字不能出错。图像里一个像素错了,顶多看着别扭。但一句话里一个字错了,整句可能就废了。扩散模型要同时处理大批量 token,出错概率比逐字生成高出一截。
谷歌也在论文里坦承这个缺点:简单任务用扩散反而浪费资源。比如只生成5个字,传统模型推5步就出来,扩散模型要吭哧吭哧做一大顿并行计算才能磨到5个字。
但是在代码生成、数论推理、分子序列这些"非线性任务"上,DiffusionGemma 的优势就体现出来了——它能同时 self-correct 一大批 token,不像传统模型那样被前一步卡住后一步。
普通人用得上吗?
现在能用了。权重在 Hugging Face 上免费下,Apache 2.0 协议,不限制商用。谷歌还专门针对英伟达显卡做了优化,消费级 RTX 和企业级 H100 都能跑。
本地 AI 这条赛道,现在玩家越来越多。谷歌扔出 DiffusionGemma,算是给开源社区扔了一记重磅炸弹——谁能先把大模型塞进消费级显卡,谁就占上风。
这场本地 AI 军备竞赛,才刚开局。