谷歌给AI装上了手:Gemini 3.5 Flash学会操控电脑

6次阅读

谷歌给双子座(Gemini)3.5 Flash版本装上了一只"虚拟手"。

6月29日,谷歌正式将"Computer Use"(电脑操控能力)整合进双子座3.5 Flash模型。这意味着开发者可以搭建AI智能体,看屏幕、点按钮、打字,在浏览器、手机和桌面应用里完成各种任务。

这事为什么值得你关心?

以前的AI只能跟你说话、回答问题。现在的AI能替你干活了——帮你填表、测试软件、在不同系统之间搬数据、处理那些繁琐的后台流程。

具体能做什么?

谷歌给了一张功能表:

(1) 读懂屏幕:双子座能看懂截图,理解那些乱七八糟的界面
(2) 操作界面:它能建议你该点哪里、打什么字、往哪滚动
(3) 安全暂停:敏感操作可以先让人确认,不会闷头执行
(4) 识别攻击:能扫描隐藏的恶意指令,防止被人诱导犯错

这些能力之前藏在独立的双子座2.5电脑操控模型里,现在直接塞进了3.5 Flash。开发者调用一个模型就能同时用多种工具,更省事。

大公司都在抢这条赛道

谷歌不是第一个做的。

去年10月,Anthropic给克劳德(Claude)加了电脑操控公测版;今年1月,OpenAI推出Operator,让AI用自己的浏览器完成网页任务。现在谷歌也冲进来了。

但谷歌有个天然优势:双子座已经深度绑定了搜索、地图、安卓、Workspace和谷歌云。一旦企业开始用AI处理日常工作,谷歌这套组合拳很难绕开。

对企业意味着什么?

对于那些还在用老系统、网页后台、电子表格手动处理事务的公司来说,这个功能可能是真的效率工具。

想象一下:AI能帮你登录内部系统、填好报销单、核对数据,然后把结果汇报给你。这不需要企业重写任何系统。

当然,谷歌也留了后手——功能说明里明确写了"预览版能力,可能存在错误和安全漏洞",建议重要任务还是要人盯着。

下一步看什么?

关键是可靠性。

AI能不能连续完成一长串操作不跑偏?能不能适应各种乱七八糟的网页和内部系统?能不能在犯错之前停下来?

真实的使用场景可能从小的开始:软件测试、表单核对、数据录入、文档审核。在这些领域,人可以全程监督,AI负责干那些重复点击的脏活累活。

真正的变化不是"AI会用电脑了",而是"AI马上要变成企业日常软件的一部分了"。

当AI能替你操作你每天用的那些工具,你准备好放手让它点那个"提交"按钮了吗?

正文完
 0