26B参数，本地跑AI快4倍：谷歌开源模型把传统技术甩在身后

AI模型生成文字，现在能"一口闷"了。

谷歌DeepMind上周发布了 DiffusionGemma，这是 Gemma 4 开源模型家族的新成员。和家族里其他模型不同，DiffusionGemma 不再一个字一个字往外蹦——它可以一次生成一整块文本，速度是传统模型的4倍。

这个数字很实在：在一张 RTX 5090 显卡上跑，DiffusionGemma 每秒能吐出约700个token。用一张 H100 加速卡，能跑到1000+每秒。同等规模的传统模型，速度只有它的四分之一。

这个差距什么概念？你现在用 GPT-4 级别的模型本地跑东西，生成一段代码要等好几秒。DiffusionGemma 同一时间内能给你四段。

原理：用图像生成的思路做文本

普通AI模型生成文字，是一个字推一个字——术语叫"自回归生成"，像多米诺骨牌，必须从第一张推到最后一张。

DiffusionGemma 打破了这个顺序。它借鉴了图像生成模型的思路：想象你拿到一张全是噪点的画布，然后一步步"去噪"，最后露出清晰的图像。对文本来说，模型拿到一块 token 画布，反复扫几轮，每一轮同时评估和优化一大批 token，最后一次性输出结果。

技术细节：总参数260亿，推理时只激活38亿。官方说它能塞进高端游戏显卡的18GB显存。实际上RTX 5090已经跑得起来，Hugging Face 上已经能下载权重。

为什么之前没人这么做？

因为文字不能出错。图像里一个像素错了，顶多看着别扭。但一句话里一个字错了，整句可能就废了。扩散模型要同时处理大批量 token，出错概率比逐字生成高出一截。

谷歌也在论文里坦承这个缺点：简单任务用扩散反而浪费资源。比如只生成5个字，传统模型推5步就出来，扩散模型要吭哧吭哧做一大顿并行计算才能磨到5个字。

但是在代码生成、数论推理、分子序列这些"非线性任务"上，DiffusionGemma 的优势就体现出来了——它能同时 self-correct 一大批 token，不像传统模型那样被前一步卡住后一步。

普通人用得上吗？

现在能用了。权重在 Hugging Face 上免费下，Apache 2.0 协议，不限制商用。谷歌还专门针对英伟达显卡做了优化，消费级 RTX 和企业级 H100 都能跑。

本地 AI 这条赛道，现在玩家越来越多。谷歌扔出 DiffusionGemma，算是给开源社区扔了一记重磅炸弹——谁能先把大模型塞进消费级显卡，谁就占上风。

近期文章