谷歌开源模型跑进普通笔记本:16GB内存就能用

11次阅读

以前想在本地跑大模型,你得掏钱买专业显卡,或者给云端API一遍遍付账单。现在不用了。

谷歌最近发布了Gemma 4系列的新成员——12B参数版本。官方说,只要你的笔记本有16GB内存,这个模型就能跑起来。注意是系统内存,不是显存。

这是一个很实用的区间。往上走, Gemma 4 26B MoE需要约35GB内存,往下走,移动版E2B/E4B倒是省资源,但能力也弱很多。12B正好卡在中间——对普通消费者友好,又不至于太弱鸡。

12B版本的秘密叫Multi-Token Prediction(MTP)。简单说,它在计算当前token的时候,顺带把下一步、下下一步的可能token也预判了。CPU/GPU闲着的那些周期全用上,推理速度就快起来了。谷歌说,这个技巧让它几乎追上了比自己大一倍的26B型号。

另一个改进在多模态处理。大多数模型处理图片和音频要用独立的编码器,数据先转成特定格式再喂给主模型。12B版本直接把这些原始信号映射到跟文字token一样的向量空间,省掉了中间商。谷歌甚至宣称,音频不需要任何编码,直接塞进去就行。

模型权重已经在Kaggle和Hugging Face上线,文件大小不到18GB。不想用云端的人,直接下载跑就行。工具链也跟上了——LM Studio、Google AI Edge Gallery这些本地运行工具已经支持。

对普通用户来说,这件事的意义很简单:以后查资料、写东西、跑AI任务,不用非得把数据送到别人服务器上了。一台普通办公笔记本,接上电,够了。

正文完
 0