谷歌给AI装上了手：Gemini 3.5 Flash学会操控电脑

AI能替你打字、点按钮、滚动页面了。

谷歌最近把"computer use"做进了Gemini 3.5 Flash里。这意味着开发者可以搭建AI智能体，能看懂屏幕内容、决定下一步操作、然后自己完成点击、输入、滚动这些动作。

不是玩具，是真干活的那种。

之前谷歌这套能力需要单独调用Gemini 2.5。现在直接集成进Gemini 3.5 Flash，开发者调用一个模型就能同时用上屏幕理解和所有其他工具。

几个关键能力：

(1) 读懂界面：Gemini能分析截图，理解乱糟糟的网页后台长什么样
(2) 操作建议：它会告诉你应该点哪里、填什么、往哪滚
(3) 安全确认：敏感操作可以暂停，等人确认再执行
(4) 恶意指令检测：能识别页面里隐藏的入侵提示词，防止被劫持

这个赛道已经挤满了人。Anthropic的Claude在2024年10月就上线了电脑操控功能，OpenAI在2025年1月推出了Operator。谷歌现在挤进来，靠什么？

答案是：它已经住在你手机和电脑里了。

Gemini深度绑定了搜索、Google Maps、安卓系统、Google Workspace和云服务。对普通用户来说，不需要额外安装什么，AI操控电脑这件事可能比想象中来得更快。

不过，能操作电脑也意味着能闯祸。谷歌自己都说，这功能目前还是"预览版"，可能出错。点错一个按钮，可能提交表单、修改文件、发出消息，后果可大可小。

对企业来说，AI帮你干活听起来很美，但边界在哪？这才是真正要回答的问题。

近期文章