ai for designersApril 30, 202611 min read

计算机应用时代:人工智能代理何时才能真正运行你的软件

一份关于人工智能计算机使用到 2026 年中期的工作指南。Anthropic 计算机使用、OpenAI 操作员和浏览器原生代理实际执行的操作、它们的发布位置、它们仍然存在的问题,以及每个团队在代理开始使用其产品之前需要做出的设计和开发决策。

By Boone
XLinkedIn
computer use agents 2026

2025 年承诺推出自主代理,并发布了聊天功能。2026 年才真正实现。真正推动变革的是计算机的使用。该模型能够识别屏幕,控制鼠标和键盘,像人一样操作软件。Anthropic 将其作为公共 API 发布。OpenAI 发布了 Operator。Browserbase、Multi-On 和 Lutra 则提供了使其能够投入生产环境的基础设施。

这是一份面向设计师和开发者的实用指南。它涵盖了计算机的使用、适用场景、不足之处、如何使用户界面对代理友好,以及区分真实代理和演示代理的开发决策。

计算机的使用终结了聊天时代

聊天是人工智能的用户界面。计算机的使用则是一个实体。该模型能够识别像素,决定点击位置,发送工具调用,并等待下一个屏幕截图。即使没有简洁的 API,这一基本功能也能解锁所有工作流程。例如,填写供应商门户网站、从仪表板提取数据(无需导出)、跨两个 Web 应用程序进行调度等。人工智能并没有变得更聪明,而是长出了手。

计算机实际使用流程

这个循环是机械式的。模型接收屏幕截图和目标。它返回一个结构化的操作:点击坐标、输入字符串、按下某个键、滚动、等待。主机执行该操作并返回下一个屏幕截图。重复此过程,直到完成或卡住为止。

没有什么神奇之处。该模型是一个视觉增强型推理器,驱动着远程桌面。它之所以有效,是因为多模态模型现在能够很好地读取用户界面并做出相应的操作。它的难点在于,实际的软件是复杂的,像素级精确的计划很少能经受住第一次错误假设的考验。

2026 年推出的三种形式

如今,计算机使用以三种形式推出,每一种都依赖于技术栈的不同层级。Anthropic 计算机使用是原始功能,以 API 的形式公开。OpenAI 操作员是受监督的消费者代理,托管在 OpenAI 的浏览器中。 Browserbase、Multi-On 和 Lutra 是团队构建自有代理产品的无服务器基础架构层。

工作室地板上并排摆放着三块厚重的石板,上面分别用单字标签标注着“RAW BROWSER INFRA”,象征着2026年计算机应用的三种趋势。
工作室地板上并排摆放着三块厚重的石板,上面分别用单字标签标注着“RAW BROWSER INFRA”,象征着2026年计算机应用的三种趋势。

选择并非功能比较,而是决定你想拥有多少技术栈。

Anthropic 计算机使用,原始功能

Anthropic 计算机使用是最低级别的解决方案,它是一种能够识别虚拟桌面并控制鼠标和键盘的模型。你需要启动一个沙箱,将该模型指向它,然后编写主机代码来执行操作并反馈屏幕截图。Replit Agent 和 Devin 在处理最繁重的代理任务时都采用了这种模式,当代理需要驱动桌面应用程序(而不仅仅是浏览器)时,它是理想之选。

成本体现在哪里?你需要拥有沙箱、安全模型、操作循环、重试逻辑和成本计量。由于每一步都会发送屏幕截图,因此令牌使用量很高。每步延迟为 2 到 6 秒。功能全面,可执行非简单操作。

OpenAI Operator,受监管的浏览器代理

OpenAI Operator 是一款托管的浏览器代理,用户可以实时监控其运行状态。它的目标用户是消费者。只需用自然语言设定一个目标,它就会打开一个浏览器标签页,您可以随时暂停、接管或终止运行。购物、日程安排、表单填写、文档检索、轻量级研究,这些都是它的优势所在。

但它也存在一些不足。Operator 运行在 OpenAI 的沙盒环境中,因此您无法将其集成到自己的产品中。身份验证流程需要用户登录。具有严格反机器人措施的网站会破坏它。使用非标准事件的自定义 JS 应用程序则存在不确定性。对于最终用户而言,它提供了目前最流畅的计算机使用体验。对于开发者而言,它只是一个竞争对手,而非一个工具。

Browserbase 和无服务器浏览器代理

Browserbase、Multi-On 和 Lutra 提供了使浏览器代理能够投入生产环境的基础架构。Browserbase 是一个无服务器托管的 Chromium 服务器集群,您的代理代码可以驱动它。Multi-On 是一个带有开发者 API 的浏览器代理。Lutra 基于相同的底层架构构建工作流代理。大多数代理工作都局限于浏览器,因此桌面沙箱显得过于复杂。

工作室地板上放置着一块高大的米白色屏幕,屏幕上堆叠着用户界面图块,并有一个悬停的指针,构成了一个便于代理使用的用户界面。
工作室地板上放置着一块高大的米白色屏幕,屏幕上堆叠着用户界面图块,并有一个悬停的指针,构成了一个便于代理使用的用户界面。

对于构建代理产品的团队来说,这一层通常是正确的起点。它提供了托管浏览器、会话持久性、屏幕截图捕获和并发功能,而无需运行您自己的服务器集群。其代价是抽象层级比完整的 Anthropic 技术栈要薄,对身份验证和存储的控制也较弱。

计算机在当今生产环境中的应用场景

计算机目前主要处理一组范围较窄但非常有用的任务。浏览器端的研究、日程安排、表单填写、从没有 API 的系统中检索文档、轻量级 QA、供应商门户自动化、从无法导出的仪表板中提取数据。负责交付的团队不再兜售通用智能,而是开始推销针对特定任务的特定工具。

行之有效的模式:范围窄、监督执行、明确的成功标准、遇到问题时快速移交给人工。Replit Agent 用它来部署仪表板。Devin 在冗长的工程任务中导航供应商控制台。Operator 处理消费者购物和旅行。Multi-On 运行销售和运营的垂直工作流程。它们都不是通用代理。它们都是优秀的产品。

计算机应用仍然存在缺陷的地方

计算机应用在实时判断、复杂的多应用程序工作流程以及任何超出基本登录的身份验证方面都存在缺陷。那些忽略这些缺陷的演示应该被忽略。Adept 的 ACT-1 就是最初的警示案例,一个精美的演示,但从未转化为可持续的产品,团队最终转型。

哪些方法行不通?代理需要读取图表并做出判断的任务;跨越四五个应用程序且状态在应用程序间传递的工作流;包含大量自定义 JavaScript、动态 ID 或强硬反机器人措施的网站;需要多因素身份验证 (MFA)、OAuth 刷新或用户不会共享的会话令牌的流程;超过二十步的长期任务会因累积错误率而失败。计算机使用可能只占你想要自动化的工作流的 10% 到 15%。最终胜出的产品选择了正确的那 10%。

为代理提供友好用户界面的设计启示

如果你的产品想要对计算机用户代理有用,那么用户界面必须易于他们阅读。目前大多数产品的用户界面都做不到这一点。代理读取的是像素。它需要可见的结构、可预测的模式和明确的标签。任何使用户界面对代理友好的因素,也都会使其易于访问。同样的检查清单适用于两者。

此时,可访问性不再是可选项。那些已经发布了简洁的 代理 UI 模式 和易于访问的组件库的团队已经赢得了这一轮。那些基于悬停触发、自定义画布组件和含义模糊的纯图标按钮构建的产品,很快就会发现,他们的产品对下一批用户来说形同虚设。

客服友好型用户界面检查清单

在任何希望吸引客服人员的产品界面上运行此清单。清单内容精简。

第一,语义化的 HTML。真正的按钮、真正的输入框、真正的标题、真正的标签。自定义的 div 元素虽然看起来没问题,但对辅助技术来说毫无意义,对客服人员来说也同样如此。

第二,可预测的模式。相同的操作在每个页面上的位置都相同。主要行动号召 (CTA) 的位置保持一致。表单采用统一的布局。导航不会重新排列。

第三,易于访问的标签。每个交互元素都有清晰易读的标签。纯图标按钮需要添加 aria-label 属性。表单字段需要有明确的、可见的标签,而不仅仅是占位符。

第四,清晰的视觉层级。客服人员需要通过屏幕截图来理解页面内容。强烈的对比度、清晰的分区和一致的字体大小。对人类而言可扫描的内容,对模型而言也同样可扫描。

第五,禁止仅悬停触发。任何重要功能都必须无需悬停即可访问。仅悬停菜单、仅悬停工具提示、仅悬停删除功能在智能体世界中都将失效。智能体不会悬停。

开发影响:工具使用 vs. 计算机使用 vs. 混合模式

计算机使用是最后的选择。对于所有具有简洁 API 接口的功能,工具使用 API 在成本、延迟和可靠性方面都更胜一筹。大多数生产系统最终都会采用混合模式。

工作室地板上三个基座的体素构成,单字标签 TOOL SEE HYBRID 解读为三种整合模式
工作室地板上三个基座的体素构成,单字标签 TOOL SEE HYBRID 解读为三种整合模式

工具使用是直接的。智能体调用一个函数,该函数返回结构化数据。成本低、延迟快、可靠性高。模型上下文协议和主流的工具使用 API 涵盖了这一领域。任何可以用 API 封装的功能都可以使用工具使用。当系统没有 API、拒绝公开 API 或将操作隐藏在您不拥有的第三方 UI 之后,才考虑使用计算机。

混合模式胜出。尽可能使用工具,只在需要处理长尾任务时才使用计算机。工具调用成本极低,而计算机操作步骤成本极低。90% 使用工具,10% 使用计算机,最终交付成本仅为纯计算机代理的十分之一。

想要帮助交付下一代代理真正可以使用的产品,或者想要将计算机功能集成到您的技术栈中,而无需在演示软件上花费任何费用?聘请 Brainy。ClaudeBrainy 提供 Claude 技能 技能包以及用于正确构建模型层的提示库,而 AppBrainy 则为希望代理执行实际工作(而非仅截屏)的团队提供完整的产品构建版本。

2026 年即将推出的真正支持计算机功能的产品

Replit Agent 运行 Claude 计算机功能,用于部署和基础架构步骤,无需干净的 API。Devin 可以在冗长的工程任务中导航供应商控制台、仪表板和管理面板。Operator 则负责处理消费者购物、日程安排和表单填写。 Browserbase 为众多垂直领域代理初创公司提供支持。Multi-On 为销售和运营提供浏览器原生工作流自动化解决方案。Lutra 则是顶尖的工作流构建器。

它们的共同模式是:范围窄、快速交接、状态可观察、完善的错误恢复机制以及真实的成本核算。它们对待计算机的使用方式,就像优秀的工程团队对待任何不稳定的依赖项一样:封装、绑定、监控、制定故障应对计划。

每个团队都会遇到的四种故障模式

第一种:通用代理陷阱。团队选择使用计算机来完成原本应该使用工具调用的工作流,代理花费了 30 秒 50 美分来完成 API 调用只需 100 毫秒就能完成的工作。解决方法:优先使用工具,仅在需要处理长尾数据时才使用计算机。

第二种:监督跳过陷阱。在会修改真实数据的工作流中使用无监督代理,如果在第 17 步出错,数据就会丢失。解决方法:对任何破坏性操作进行监督执行,在写入操作时设置确认门,默认进行试运行。

第三种:脆弱选择器陷阱。提示信息依赖于特定的 UI 状态,目标网站更新后,代理程序会静默崩溃。解决方法:基于意图而非像素坐标构建提示信息。每周在真实网站上进行测试。

第四,成本盲点陷阱。功能发布后,账单来了,单位经济效益却不尽如人意。解决方法:在发布前对每个任务的成本进行建模。每次运行成本低于 50 美分通常是可行的。每次运行成本超过 5 美元则很少可行。

设计师和构建者的决策矩阵

设计师、前端开发人员、后端开发人员、创始人。每个角色都有不同的第一步。

| 角色 | 第一步 | 原因 |

|---|---|---|

| 设计师 | 运行代理友好型 UI 检查清单 | 大多数当前的 UI 对代理程序来说是不可见的。首先修复这个问题。|

| 前端开发人员 | 交付语义化的 HTML、ARIA 标签和可预测的组件模式 | 与交付 AI产品入门 相同的工作也实现了代理程序兼容性。|

| 后端开发人员 |为产品公开的每个操作构建工具使用 API 接口 | 工具使用在成本和可靠性方面更胜一筹。计算机使用是备选方案。|

| 创始人 | 选择能够提供真正价值的最小代理工作流程 | 精准代理胜出。通用代理落败。|

工作分配不均。设计师和前端开发人员负责代理的可读性。后端开发人员负责工具使用。创始人选择负责哪条路。

常见问题解答

什么是 AI 计算机使用?

计算机使用是指 AI 模型能够像人一样查看屏幕、控制鼠标和键盘以及浏览软件的能力。Anthropic 计算机使用、OpenAI 操作员以及来自 Browserbase、Multi-On 和 Lutra 的浏览器原生代理是 2026 年的生产级实现。模型截取屏幕截图,选择一个操作,发送工具调用,然后等待下一个屏幕截图。

Anthropic Computer Use 比 OpenAI Operator 更好吗?

两者各有千秋。Anthropic Computer Use 是面向开发者的原始功能。Operator 是一款托管的消费级产品。开发者可以选择 Anthropic Computer Use 或类似 Browserbase 的基础架构层。最终用户选择 Operator。它们是不同的产品,并非直接竞争对手。

浏览器代理可以管理我公司的整个业务吗?

不能,那些声称可以做到这一点的产品并不值得投资。Computer Use 可能只能覆盖典型团队中 10% 到 15% 的工作流程。成功的模式是针对特定工作流程的专用代理,并能快速将工作交接给人工处理。Adept 的 ACT-1 展示了大规模通用代理的愿景。

我需要为 AI 代理重新设计我的产品吗?

如果您提供易于访问的用户界面,并包含语义化的 HTML、可预测的模式和清晰的标签,那么您就基本成功了。如果你的产品仅支持悬停菜单、自定义画布组件和无标签图标按钮,那么答案是肯定的。无障碍设计对客服人员来说很友好。

何时应该优先选择计算机端而非工具端 API?

几乎永远不要优先选择计算机端。只要存在 API,工具端 API 在成本、延迟和可靠性方面都更胜一筹。计算机端是无 API 系统的备选方案。到 2026 年,大多数生产环境中的客服人员都将采用混合模式,90% 使用工具端,10% 使用计算机端。

计算机端真正带来的变革

计算机端并非更智能的聊天机器人。它是人工智能首次能够像人一样操控工具。这属于不同的产品类别,而从线框图开始就着手设计的团队将在未来十二个月内占据主导地位。

大多数团队仍然将客服人员视为附加了自主功能的聊天功能。而领先的团队则将客服人员视为使用相同软件的同事。前者只是发布了一个聊天标签页,后者则发布了一个真正有效的产品。 AI代码编辑器对比 涵盖了同一转变的开发方面。

如果你的产品在未来一年内会被客服人员使用(大多数产品都会如此),那么你本季度做出的设计决策将决定客服人员是能帮助你的用户,还是会完全忽略你。运行检查清单。选择工作流程。发布能够带来实际效益的产品。

如果你想要帮助发布一款下一代客服人员真正可以使用的产品,或者想在不花费一个季度时间开发演示软件的情况下将计算机使用集成到你的技术栈中,请参考 聘请 Brainy。ClaudeBrainy 提供技能包和提示库。AppBrainy 为那些希望客服人员执行实际工作而非仅截屏的团队提供完整的产品构建版本。

Want help shipping a product the next wave of agents can actually use, or wiring computer use into your stack without burning a quarter on demoware? Brainy ships ClaudeBrainy as a Skill pack and prompt library, and AppBrainy ships full product builds for teams that want their agents to do real work, not screenshots.

Get Started

More from Brainy Papers

Keep reading