Annotation

  • 介绍
  • Gemini 2.5 Computer Use 的功能
  • 技术能力和性能
  • 优缺点
  • 结论
科技新闻

Google Gemini 2.5 计算机使用:AI 浏览器自动化突破

Google Gemini 2.5 计算机使用是一种 AI 模型,可自动化网页浏览器任务,如点击和输入,无需 API,并在自动化基准测试中优于其他工具。

Google Gemini 2.5 Computer Use interface showing AI browser automation capabilities
科技新闻1 min read

介绍

谷歌发布了Gemini 2.5 Computer Use,这是一款突破性的人工智能模型,彻底改变了人工智能与网络浏览器交互的方式。这项创新技术使AI代理能够在浏览器界面内直接执行类似人类的操作,消除了对API的传统依赖,用于网络自动化任务。

Gemini 2.5 Computer Use 的功能

这款先进的AI模型在AI自动化平台方面实现了重大飞跃,允许通过视觉理解和推理直接操作网页元素。与传统的自动化工具不同,Gemini 2.5 Computer Use 解释屏幕上的元素,并执行包括点击按钮、输入文本、滚动页面和填写表单在内的操作——本质上模仿人类的浏览行为。

该技术支持在浏览器环境中多达13种不同的UI操作,涵盖常见的网络交互,如拖拽元素、选择选项和在页面间导航。这使得它对于需要复杂网络交互能力的自动化工具特别有价值。

技术能力和性能

谷歌的测试表明,Gemini 2.5 Computer Use 在网络和移动自动化基准测试中优于OpenAI和Anthropic的竞争解决方案。该模型处理截图和操作历史以理解上下文,然后顺序执行命令,同时请求用户批准敏感操作,如金融交易或数据提交。

开发者可以通过在Google AI Studio和Vertex AI上可用的AI API和SDK来自定义支持的操作并集成该技术。这种灵活性使其适用于各种应用,包括自动化UI测试、从没有API的网站提取数据以及简化重复的基于网络的工作流程。

优缺点

优点

  • 消除对网站API进行自动化的需求
  • 自然地处理复杂的UI交互
  • 优于竞争AI自动化模型
  • 支持多达13种不同的浏览器操作
  • 通过谷歌成熟的AI平台可用
  • 请求用户确认敏感操作
  • 可自定义操作支持以满足特定需求

缺点

  • 仅限于浏览器自动化
  • 未针对桌面系统控制进行优化
  • 操作需要截图上下文
  • 目前处于公开预览阶段

结论

Google Gemini 2.5 Computer Use 标志着AI代理和助手技术的重大进步,为开发者和企业带来了复杂的浏览器自动化能力。虽然目前专注于基于网络的交互,但其性能优势和灵活的集成选项使其成为自动化数字工作流程和提高各种依赖网络的过程的生产力的强大工具。

常见问题

什么是 Google Gemini 2.5 计算机使用?

Gemini 2.5 计算机使用是 Google 的 AI 模型,可实现与网页浏览器的自动交互,执行点击、输入和表单填写等操作,无需传统 API。

Gemini 2.5 计算机使用如何工作?

该 AI 模型利用视觉理解来解释浏览器界面,处理屏幕截图和操作历史记录,逐步执行 UI 命令,同时请求用户确认敏感操作。

Gemini 2.5 可以执行哪些浏览器操作?

它支持多达 13 种 UI 操作,包括点击按钮、输入文本、滚动页面、拖拽元素和填写表单——本质上模拟人类浏览行为。

Gemini 2.5 计算机使用与其他 AI 自动化工具相比如何?

它在网络自动化基准测试中优于 OpenAI 和 Anthropic 等竞争对手,提供更自然的浏览器交互,无需 API 依赖,并能更好地处理复杂的 UI 任务。

Gemini 2.5 计算机使用有哪些集成选项?

开发者可以通过 Google AI Studio 和 Vertex AI 使用可用的 API 和 SDK 进行集成,以支持从 UI 测试到数据提取的各种应用的自定义自动化工作流。