谷歌给AI装上了手：Gemini 3.5 Flash学会操控电脑

谷歌给双子座（Gemini）3.5 Flash版本装上了一只"虚拟手"。

6月29日，谷歌正式将"Computer Use"（电脑操控能力）整合进双子座3.5 Flash模型。这意味着开发者可以搭建AI智能体，看屏幕、点按钮、打字，在浏览器、手机和桌面应用里完成各种任务。

这事为什么值得你关心？

以前的AI只能跟你说话、回答问题。现在的AI能替你干活了——帮你填表、测试软件、在不同系统之间搬数据、处理那些繁琐的后台流程。

具体能做什么？

谷歌给了一张功能表：

(1) 读懂屏幕：双子座能看懂截图，理解那些乱七八糟的界面
(2) 操作界面：它能建议你该点哪里、打什么字、往哪滚动
(3) 安全暂停：敏感操作可以先让人确认，不会闷头执行
(4) 识别攻击：能扫描隐藏的恶意指令，防止被人诱导犯错

这些能力之前藏在独立的双子座2.5电脑操控模型里，现在直接塞进了3.5 Flash。开发者调用一个模型就能同时用多种工具，更省事。

谷歌不是第一个做的。

去年10月，Anthropic给克劳德（Claude）加了电脑操控公测版；今年1月，OpenAI推出Operator，让AI用自己的浏览器完成网页任务。现在谷歌也冲进来了。

但谷歌有个天然优势：双子座已经深度绑定了搜索、地图、安卓、Workspace和谷歌云。一旦企业开始用AI处理日常工作，谷歌这套组合拳很难绕开。

对于那些还在用老系统、网页后台、电子表格手动处理事务的公司来说，这个功能可能是真的效率工具。

想象一下：AI能帮你登录内部系统、填好报销单、核对数据，然后把结果汇报给你。这不需要企业重写任何系统。

当然，谷歌也留了后手——功能说明里明确写了"预览版能力，可能存在错误和安全漏洞"，建议重要任务还是要人盯着。

关键是可靠性。

AI能不能连续完成一长串操作不跑偏？能不能适应各种乱七八糟的网页和内部系统？能不能在犯错之前停下来？

真实的使用场景可能从小的开始：软件测试、表单核对、数据录入、文档审核。在这些领域，人可以全程监督，AI负责干那些重复点击的脏活累活。

真正的变化不是"AI会用电脑了"，而是"AI马上要变成企业日常软件的一部分了"。