谷歌把大模型塞进普通笔记本：12亿参数，16GB内存就能跑

这两年AI烧内存有多厉害？英伟达显卡的价格已经说明一切。但谷歌最近发布了一款新模型，宣称任何带16GB内存的笔记本都能跑。

6月3日，谷歌正式推出Gemma 4 12B。这是今年4月发布的Gemma 4家族的新成员。之前四款分别是两款移动端优化版（2B和4B）和两款专业版（26B MoE和31B），中间一直有个大空档——这次补上了。

关键数据：12亿参数，内存占用只有26B MoE版本的一半左右。谷歌说它在基准测试里几乎追平26B版本的表现。

怎么做到的？主要有三个优化：

(1) 多Token预测（MTP）：提前算好可能的下一个词，把闲置的算力用起来，加速同时省内存。这技术本来是可选的，这次直接内置。

(2) 视觉模块简化：大多数多模态模型要经过一个编码器把图片转成文字再喂给大模型，延迟高还吃内存。Gemma 4 12B直接用一个矩阵乘法搞定，省掉中间商。

(3) 音频原生处理：连编码都省了，原始音频信号直接投射成和文字一样的向量。手机笔记本这种设备特别吃这套。

以前想在本地跑个像样的AI模型，至少要投资一块售价两万美元的AI加速卡。现在只要笔记本内存够就行。

不想下载的话，LM Studio、Google AI Edge Gallery直接在线跑。要本地跑可以去Kaggle或Hugging Face下载权重，大概18GB。

谷歌开源这模型用的是Apache 2.0许可证，商业使用也没问题。中小创业公司完全可以把这项能力嵌进自己的产品里，不用非得调用云端API。

对普通用户来说，以后在你自己的电脑上跑个能聊天的、能识别图片的、能处理音频的AI助手，可能就是下一个版本更新后的事。

云端AI的时代正在松动。

近期文章