
谷歌把屏幕控制能力原生集成进 Gemini 3.5 Flash,企业级智能体离真实办公更近一步
谷歌将原本独立提供的 Computer Use 能力集成进 Gemini 3.5 Flash,使开发者可以用同一个主力 Flash 模型构建能看屏幕、理解界面并执行点击、输入、滚动等操作的智能体。它面向浏览器、移动端和桌面环境开放,但仍处于预览能力范畴,安全边界和人工确认机制会决定其企业落地速度。
谷歌在 6 月 24 日宣布,Computer Use 已成为 Gemini 3.5 Flash 的内置工具。简单说,开发者现在可以让 Gemini 3.5 Flash 看见屏幕、理解界面内容,并生成点击、输入、滚动等操作指令,而不必再单独调用此前的 Gemini 2.5 computer use 专用模型。这不是一次普通的 API 小更新,它代表谷歌正在把“能聊天的模型”进一步推向“能操作软件的...
·6 分钟
阅读全文