谷歌给AI装上了手:Gemini 3.5 Flash学会操控电脑

5次阅读

AI能替你打字、点按钮、滚动页面了。

谷歌最近把"computer use"做进了Gemini 3.5 Flash里。这意味着开发者可以搭建AI智能体,能看懂屏幕内容、决定下一步操作、然后自己完成点击、输入、滚动这些动作。

不是玩具,是真干活的那种。

之前谷歌这套能力需要单独调用Gemini 2.5。现在直接集成进Gemini 3.5 Flash,开发者调用一个模型就能同时用上屏幕理解和所有其他工具。

几个关键能力:

(1) 读懂界面:Gemini能分析截图,理解乱糟糟的网页后台长什么样
(2) 操作建议:它会告诉你应该点哪里、填什么、往哪滚
(3) 安全确认:敏感操作可以暂停,等人确认再执行
(4) 恶意指令检测:能识别页面里隐藏的入侵提示词,防止被劫持

这个赛道已经挤满了人。Anthropic的Claude在2024年10月就上线了电脑操控功能,OpenAI在2025年1月推出了Operator。谷歌现在挤进来,靠什么?

答案是:它已经住在你手机和电脑里了。

Gemini深度绑定了搜索、Google Maps、安卓系统、Google Workspace和云服务。对普通用户来说,不需要额外安装什么,AI操控电脑这件事可能比想象中来得更快。

不过,能操作电脑也意味着能闯祸。谷歌自己都说,这功能目前还是"预览版",可能出错。点错一个按钮,可能提交表单、修改文件、发出消息,后果可大可小。

对企业来说,AI帮你干活听起来很美,但边界在哪?这才是真正要回答的问题。

正文完
 0