谷歌把大模型塞进普通笔记本:12亿参数,16GB内存就能跑

9次阅读

这两年AI烧内存有多厉害?英伟达显卡的价格已经说明一切。但谷歌最近发布了一款新模型,宣称任何带16GB内存的笔记本都能跑。

6月3日,谷歌正式推出Gemma 4 12B。这是今年4月发布的Gemma 4家族的新成员。之前四款分别是两款移动端优化版(2B和4B)和两款专业版(26B MoE和31B),中间一直有个大空档——这次补上了。

关键数据:12亿参数,内存占用只有26B MoE版本的一半左右。谷歌说它在基准测试里几乎追平26B版本的表现。

怎么做到的?主要有三个优化:

(1) 多Token预测(MTP):提前算好可能的下一个词,把闲置的算力用起来,加速同时省内存。这技术本来是可选的,这次直接内置。

(2) 视觉模块简化:大多数多模态模型要经过一个编码器把图片转成文字再喂给大模型,延迟高还吃内存。Gemma 4 12B直接用一个矩阵乘法搞定,省掉中间商。

(3) 音频原生处理:连编码都省了,原始音频信号直接投射成和文字一样的向量。手机笔记本这种设备特别吃这套。

以前想在本地跑个像样的AI模型,至少要投资一块售价两万美元的AI加速卡。现在只要笔记本内存够就行。

不想下载的话,LM Studio、Google AI Edge Gallery直接在线跑。要本地跑可以去Kaggle或Hugging Face下载权重,大概18GB。

谷歌开源这模型用的是Apache 2.0许可证,商业使用也没问题。中小创业公司完全可以把这项能力嵌进自己的产品里,不用非得调用云端API。

对普通用户来说,以后在你自己的电脑上跑个能聊天的、能识别图片的、能处理音频的AI助手,可能就是下一个版本更新后的事。

云端AI的时代正在松动。

正文完
 0