Google Gemini 2.5 计算机使用是一种 AI 模型,可自动化网页浏览器任务,如点击和输入,无需 API,并在自动化基准测试中优于其他工具。
谷歌发布了Gemini 2.5 Computer Use,这是一款突破性的人工智能模型,彻底改变了人工智能与网络浏览器交互的方式。这项创新技术使AI代理能够在浏览器界面内直接执行类似人类的操作,消除了对API的传统依赖,用于网络自动化任务。
这款先进的AI模型在AI自动化平台方面实现了重大飞跃,允许通过视觉理解和推理直接操作网页元素。与传统的自动化工具不同,Gemini 2.5 Computer Use 解释屏幕上的元素,并执行包括点击按钮、输入文本、滚动页面和填写表单在内的操作——本质上模仿人类的浏览行为。
该技术支持在浏览器环境中多达13种不同的UI操作,涵盖常见的网络交互,如拖拽元素、选择选项和在页面间导航。这使得它对于需要复杂网络交互能力的自动化工具特别有价值。
谷歌的测试表明,Gemini 2.5 Computer Use 在网络和移动自动化基准测试中优于OpenAI和Anthropic的竞争解决方案。该模型处理截图和操作历史以理解上下文,然后顺序执行命令,同时请求用户批准敏感操作,如金融交易或数据提交。
开发者可以通过在Google AI Studio和Vertex AI上可用的AI API和SDK来自定义支持的操作并集成该技术。这种灵活性使其适用于各种应用,包括自动化UI测试、从没有API的网站提取数据以及简化重复的基于网络的工作流程。
Google Gemini 2.5 Computer Use 标志着AI代理和助手技术的重大进步,为开发者和企业带来了复杂的浏览器自动化能力。虽然目前专注于基于网络的交互,但其性能优势和灵活的集成选项使其成为自动化数字工作流程和提高各种依赖网络的过程的生产力的强大工具。
Gemini 2.5 计算机使用是 Google 的 AI 模型,可实现与网页浏览器的自动交互,执行点击、输入和表单填写等操作,无需传统 API。
该 AI 模型利用视觉理解来解释浏览器界面,处理屏幕截图和操作历史记录,逐步执行 UI 命令,同时请求用户确认敏感操作。
它支持多达 13 种 UI 操作,包括点击按钮、输入文本、滚动页面、拖拽元素和填写表单——本质上模拟人类浏览行为。
它在网络自动化基准测试中优于 OpenAI 和 Anthropic 等竞争对手,提供更自然的浏览器交互,无需 API 依赖,并能更好地处理复杂的 UI 任务。
开发者可以通过 Google AI Studio 和 Vertex AI 使用可用的 API 和 SDK 进行集成,以支持从 UI 测试到数据提取的各种应用的自定义自动化工作流。