ai for designersApril 30, 202611 min read

Эра использования компьютеров: когда агенты искусственного интеллекта действительно смогут управлять вашим программным обеспечением.

Практическое руководство по использованию ИИ на компьютерах до середины 2026 года. Что на самом деле делают Anthropic Computer Use, OpenAI Operator и браузерные агенты, где они внедряются, где они все еще дают сбои, а также какие проектные и разработческие решения должна принять каждая команда, прежде чем агенты начнут использовать свой продукт.

By Boone

X LinkedIn

2025 год обещал автономных агентов и выпустил чат. 2026 год действительно это сделал. Решающим фактором стало использование компьютера. Модель видит экран, управляет мышью и клавиатурой, перемещается по программному обеспечению, как человек. Anthropic выпустил это как публичный API. OpenAI выпустил Operator. Browserbase, Multi-On и Lutra выпустили инфраструктуру, которая делает его пригодным для использования в производственной среде.

Рабочее руководство для дизайнеров и разработчиков. Что такое использование компьютера, где это реализуется, где возникают проблемы, что нужно вашему пользовательскому интерфейсу, чтобы он был удобен для агентов, и какие решения разработчиков отличают реального агента от другой демонстрации.

Использование компьютера — это возможность, которая положила конец эре чатов

Чат был пользовательским интерфейсом для ИИ. Использование компьютера — это тело. Модель видит пиксели, решает, куда кликнуть, отправляет вызов инструмента, ждет следующего скриншота. Этот единственный примитив открывает все рабочие процессы без чистого API. Заполнение портала поставщика. Получение данных с панели мониторинга без экспорта. Планирование между двумя веб-приложениями. ИИ не стал умнее. ИИ обзавёлся руками.

Что на самом деле делает использование компьютера

Цикл механический. Модель получает скриншот и цель. Она возвращает структурированное действие: щелчок по координатам, ввод строки, нажатие клавиши, прокрутка, ожидание. Хост выполняет действие и отправляет обратно следующий скриншот. Повторять до завершения или до тех пор, пока не возникнет проблема.

Никакой магии. Модель — это логический механизм, дополненный визуальными эффектами, управляющий удалённым рабочим столом. Это работает, потому что мультимодальные модели теперь достаточно хорошо считывают пользовательский интерфейс, чтобы действовать на его основе. Это сложно, потому что реальное программное обеспечение — это сложная система, и идеально точные планы редко выдерживают первое неверное предположение.

Три варианта, которые появятся в 2026 году

Использование компьютера сегодня представлено в трёх формах, каждая из которых опирается на разный уровень стека. Anthropic Использование компьютера — это базовая возможность, предоставляемая в виде API. OpenAI Operator — это контролируемый агент-потребитель, размещенный в браузере OpenAI. Browserbase, Multi-On и Lutra — это бессерверный инфраструктурный слой для команд, выпускающих собственные агентские продукты.

Воксельная диаграмма трех тяжелых плит, расположенных в ряд на полу студии, с однословными надписями RAW BROWSER INFRA, которые означают три варианта использования компьютера, поставляемого в 2026 году.

Выбор не сводится к сравнению функций. Это решение о том, какой частью стека вы хотите владеть.

Anthropic Использование компьютера, базовые возможности

Anthropic Использование компьютера — это предложение самого низкого уровня, модель, которая видит виртуальный рабочий стол и управляет мышью и клавиатурой. Вы запускаете песочницу, указываете на нее моделью и пишете код хоста, который выполняет действия и передает скриншоты. Replit Agent и Devin используют этот шаблон для наиболее ресурсоемких агентских задач, и это правильный выбор, когда агенту нужно управлять настольными приложениями, а не только браузером.

Где он оставляет деньги. Вы владеете песочницей, моделью безопасности, циклом действий, логикой повторных попыток и счетчиком затрат. Использование токенов высокое, поскольку каждый шаг сопровождается скриншотом. Задержка составляет от двух до шести секунд на шаг. Общие возможности, нетривиальные операции работают.

OpenAI Operator, управляемый агент браузера

OpenAI Operator — это размещенный агент браузера, за которым пользователь наблюдает в режиме реального времени. Он ориентирован на потребителя. Задайте ему цель на естественном языке, он откроет вкладку браузера, и вы можете приостановить, перехватить управление или остановить выполнение в любой момент. Покупки, планирование, заполнение форм, поиск документов, легковесные исследования. Это оптимальная область применения.

Где он оставляет деньги. Operator работает в песочнице внутри среды OpenAI, поэтому вы не можете интегрировать агента в свой собственный продукт. Аутентифицированные потоки требуют передачи управления пользователю для входа в систему. Сайты с агрессивными мерами защиты от ботов нарушают это. Пользовательские JS-приложения с нестандартными событиями — это лотерея. Для конечных пользователей — самый удобный интерфейс для работы с компьютером, доступный сегодня. Для разработчиков — конкурент, а не инструмент.

Browserbase и бессерверные агенты для браузеров

Browserbase, Multi-On и Lutra предоставляют инфраструктуру, которая делает агенты для браузеров жизнеспособными в производственной среде. Browserbase — это бессерверный хостинг Chromium, который может управлять кодом вашего агента. Multi-On — это агент для браузера с API для разработчиков. Lutra создает агенты рабочих процессов на основе того же примитива. Предполагается, что большая часть работы агента привязана к браузеру, а песочница для настольных компьютеров — это излишне.

Воксельная композиция высокого светло-бежевого экрана на полу студии с расположенными друг над другом элементами пользовательского интерфейса и наведенным указателем, воспринимаемая как удобный для оператора интерфейс.

Для команды, разрабатывающей продукт на основе агентов, этот уровень обычно является правильной отправной точкой. Хостинг браузера, сохранение сессий, захват скриншотов, параллельная обработка без запуска собственного парка. Цена — более тонкая абстракция, чем у полного стека Anthropic, с меньшим контролем над аутентификацией и хранилищем.

Где использование компьютеров внедряется в производство сегодня

Использование компьютеров работает над узким, но полезным набором задач. Поиск информации в браузере, планирование, заполнение форм, получение документов из систем без API, упрощенный контроль качества, автоматизация портала поставщика, извлечение данных из панелей мониторинга, которые отказываются экспортировать. Команды, занимавшиеся разработкой, перестали предлагать общие решения и начали предлагать конкретный инструмент для конкретной задачи.

Работающая схема. Узкая область применения, контролируемое выполнение, четкие критерии успеха, быстрая передача человеку при возникновении проблем. Replit Agent использует его для развертывания панелей мониторинга. Devin работает с консолями поставщиков в рамках длительных инженерных задач. Operator обрабатывает покупки и поездки потребителей. Multi-On запускает вертикальные рабочие процессы для продаж и операций. Ни один из них не является универсальным агентом. Все они — хорошие продукты.

Где использование компьютера по-прежнему дает сбой

Использование компьютера дает сбой при принятии решений в реальном времени, сложных многоприложенийных рабочих процессах и любой аутентификации, кроме базового входа в систему. Демонстрации, которые игнорируют эти аспекты, — это демонстрации, которые следует игнорировать. ACT-1 от Adept стал первоначальной поучительной историей, прекрасной демонстрацией, которая так и не превратилась в устойчивый продукт, и команда в итоге изменила направление.

Что не работает. Задачи, где агенту приходится анализировать график и принимать решения. Рабочие процессы, охватывающие четыре или пять приложений с передачей состояния между ними. Сайты с большим количеством пользовательского JavaScript, динамическими идентификаторами или агрессивными мерами защиты от ботов. Потоки, требующие многофакторной аутентификации, обновления OAuth или токенов сессии, которыми пользователь не хочет делиться. Долгосрочные задачи, превышающие двадцать шагов, терпят неудачу с постоянно растущим числом ошибок. Использование компьютера охватывает, возможно, от десяти до пятнадцати процентов рабочих процессов, которые вы хотели бы автоматизировать. Продукты-победители выбрали правильные десять процентов.

Последствия для дизайна удобного для агента пользовательского интерфейса

Если ваш продукт должен быть полезен для агента, использующего компьютер, пользовательский интерфейс должен быть для него понятен. Большинство современных пользовательских интерфейсов не являются таковыми. Агент считывает пиксели. Ему нужна видимая структура, предсказуемые шаблоны и однозначные метки. Все, что делает пользовательский интерфейс удобным для агента, также делает его доступным. Один и тот же контрольный список гигиены служит и тому, и другому.

Именно здесь доступность перестает быть необязательной. Команды, которые уже выпустили чистые шаблоны пользовательского интерфейса агента и доступные библиотеки компонентов, выигрывают этот раунд. Команды, использующие только триггеры при наведении курсора, пользовательские виджеты на холсте и неоднозначные кнопки только с иконками, вот-вот обнаружат, что их продукт невидим для следующей волны пользователей.

Контрольный список для удобного для агентов пользовательского интерфейса

Запустите это на любом интерфейсе продукта, который хочет привлечь трафик от агентов. (Немного сокращено)

Во-первых. Семантический HTML. Реальные кнопки, реальные поля ввода, реальные заголовки, реальные метки. Пользовательский div-код, который выглядит правильно, но ничего не читается для специалистов по вспомогательным технологиям, ничего не читается и для агентов.

Во-вторых. Предсказуемые шаблоны. Одно и то же действие находится в одном и том же месте на каждой странице. Основные призывы к действию в постоянных позициях. Формы с единым макетом. Навигация, которая не перестраивается.

В-третьих. Доступные метки. Каждый интерактивный элемент имеет четкую, удобочитаемую метку. Кнопки только с иконками получают атрибуты aria-labels. Поля форм имеют явные, видимые метки, а не просто заполнители.

Четвертое. Четкая визуальная иерархия. Агент должен читать страницу со скриншота. Высокий контраст, четкое разделение на секции, согласованный масштаб шрифта. То, что легко считывается человеком, легко считывается и моделью.

Пятое. Отсутствие триггеров, срабатывающих только при наведении курсора. Все важное должно быть доступно без состояния наведения курсора. Меню, всплывающие подсказки и функции удаления, срабатывающие только при наведении курсора, устарели в мире агентов. Агент не наводит курсор.

Последствия для разработчиков: использование инструментов, использование компьютера и гибридный подход

Использование компьютера — это возможность последнего средства. API для использования инструментов выигрывают по стоимости, задержке и надежности для всего, что имеет чистый API-интерфейс. Гибридный подход — это то, на чем останавливается большинство производственных систем.

Воксельная композиция из трех постаментов на полу студии, однословные метки TOOL SEE HYBRID, представленные в виде трех интеграционных паттернов.

Использование инструментов — это прямой подход. Агент вызывает функцию, функция возвращает структурированные данные. Низкая стоимость, быстрая задержка, высокая надежность. Протокол контекста модели и основные API для использования инструментов охватывают этот сегмент. Используйте его для всего, что можно обернуть в API. Использование компьютера — это запасной вариант, когда у системы нет API, она отказывается его предоставлять или скрывает действие за сторонним пользовательским интерфейсом, который вам не принадлежит.

Гибридный подход выигрывает. Используйте инструменты для всего, что возможно, а для длинных хвостов используйте компьютер. Вызовы инструментов стоят копейки. Шаги использования компьютера — копейки. 90% использования инструментов, 10% использования компьютера — это в десять раз дешевле, чем агент, работающий исключительно с компьютером.

Нужна помощь в выпуске продукта, который сможет использовать следующее поколение агентов, или в интеграции использования компьютера в ваш стек без затрат на демоверсии? ⟦ССЫЛКА 1⟧. ClaudeBrainy выпускает ⟦ССЫЛКА 2⟧ в виде пакета навыков плюс библиотеки подсказок, которые правильно работают на уровне модели, а AppBrainy выпускает полные сборки продуктов для команд, которые хотят, чтобы их агенты выполняли реальную работу, а не делали скриншоты.

Реальные продукты, используемые на компьютерах в 2026 году

Replit Agent использует Claude Computer Use для развертывания и инфраструктурных этапов без чистого API. Devin работает с консолями поставщиков, панелями мониторинга и административными панелями в рамках длительных инженерных задач. Operator обрабатывает покупки, планирование и заполнение форм для потребителей. Browserbase обеспечивает работу множества вертикальных стартапов, занимающихся агентскими технологиями. Multi-On предоставляет встроенную в браузер автоматизацию рабочих процессов для продаж и операций. Lutra — это конструктор рабочих процессов.

Общий для них шаблон: узкая область применения, быстрая передача, наблюдаемое состояние, щедрое восстановление после ошибок, реальный учет затрат. Они относятся к использованию компьютеров так же, как хорошие инженерные команды относятся к любой нестабильной зависимости. Обертывание, ограничение, инструментирование, планирование на случай сбоя.

Четыре режима сбоя, с которыми сталкивается каждая команда

Первый. Ловушка универсального агента. Команда выбирает использование компьютера для рабочего процесса, который в противном случае потребовал бы вызова инструмента, агент тратит тридцать секунд и пятьдесят центов на то, что вызов API мог бы сделать за сто миллисекунд. Решение: сначала использование инструмента, затем использование компьютера для длинных задач.

Второе. Ловушка пропуска контроля. Неконтролируемый агент в рабочем процессе, который изменяет реальные данные, ошибка на семнадцатом шаге, данные потеряны. Решение: контролируемое выполнение для всего деструктивного, контрольные точки подтверждения при записи, пробный запуск по умолчанию.

Третье. Ловушка хрупкого селектора. Подсказки зависят от конкретных состояний пользовательского интерфейса, целевой сайт обновляется, агент незаметно ломается. Решение: создавать подсказки на основе намерения, а не пиксельных координат. Тестировать на реальных сайтах еженедельно.

Четвертое. Ловушка слепоты к стоимости. Выпускаем функцию, приходит счет, экономика единицы не работает. Решение: моделировать стоимость задачи перед запуском. Менее пятидесяти центов за запуск обычно жизнеспособно. Более пяти долларов за запуск редко.

Матрица принятия решений для дизайнеров и разработчиков

Дизайнер, фронтенд-разработчик, бэкенд-разработчик, основатель. У каждой роли свой первый шаг.

| Роль | Первый шаг | Почему |

|---|---|---|

| Дизайнер | Выполните проверку пользовательского интерфейса, удобного для агентов | Большинство существующих интерфейсов невидимы для агентов. Исправьте это в первую очередь. |

| Фронтенд-разработчик | Внедрите семантический HTML, метки ARIA, предсказуемые шаблоны компонентов | Та же работа, которая обеспечивает совместимость с агентами, используется для создания Внедрение продуктов с использованием ИИ. |

| Бэкенд-разработчик | Создайте API-интерфейс для каждого действия, которое предоставляет ваш продукт | Использование инструментов выгоднее по стоимости и надежности. Использование компьютера — запасной вариант. |

| Основатель | Выберите самый простой рабочий процесс для агентов, который приносит реальную пользу | Узкий подход выигрывает. Общие агенты проигрывают. |

Работа распределена неравномерно. Дизайнеры и фронтенд-разработчики отвечают за читаемость интерфейса для агентов. Бэкенд-разработчики отвечают за использование инструментов. Основатели выбирают направление.

Часто задаваемые вопросы

Что такое использование компьютера ИИ?

Использование компьютера — это способность, позволяющая модели ИИ видеть экран, управлять мышью и клавиатурой, а также перемещаться по программному обеспечению, как человек. Anthropic Использование компьютера, OpenAI Оператор и браузерные агенты от Browserbase, Multi-On и Lutra — это готовые к использованию в 2026 году реализации. Модель делает снимок экрана, выбирает действие, отправляет вызов инструмента и ждет следующего снимка экрана.

Лучше ли Anthropic Использование компьютера, чем OpenAI Оператор?

Разные формы «лучше». Anthropic Использование компьютера — это базовая возможность для разработчиков. Оператор — это размещенный потребительский продукт. Разработчики выбирают Anthropic Использование компьютера или инфраструктурный слой в стиле Browserbase. Конечные пользователи выбирают Оператор. Это разные задачи, а не прямые конкуренты.

Может ли браузерный агент управлять всей моей компанией?

Нет, и продукты, обещающие это, не стоит рассматривать как оптимальные. Использование компьютера охватывает, возможно, от десяти до пятнадцати процентов рабочих процессов в типичной команде. Успешная модель — это узкоспециализированные агенты, работающие над конкретными рабочими процессами, с быстрой передачей управления людям. ACT-1 от Adept — это то, как выглядит амбициозность универсального агента в масштабе.

Нужно ли мне перепроектировать свой продукт для ИИ-агентов?

Если вы предоставляете доступный пользовательский интерфейс с семантическим HTML, предсказуемыми шаблонами и четкими метками, вы в основном достигли цели. Если ваш продукт работает на основе меню, появляющихся только при наведении курсора, пользовательских виджетов на холсте и кнопок с иконками без меток, то да. Доступность — это удобство для агентов.

Когда следует выбирать использование компьютера вместо API для использования инструмента?

Почти никогда в первую очередь. API для использования инструмента выигрывают по стоимости, задержке и надежности, если API существует. Использование компьютера — это запасной вариант для систем без API. Большинство агентов в 2026 году будут работать в гибридном режиме: девяносто процентов — с использованием инструментов, десять процентов — с использованием компьютеров.

Фактическое изменение в использовании компьютеров

Использование компьютеров — это не просто более умный чат-бот. Это первый случай, когда ИИ может держать инструмент так же, как человек. Это совершенно другая категория продуктов, и команды, разрабатывающие их с нуля, будут доминировать в следующие двенадцать месяцев.

Большинство команд по-прежнему рассматривают агентов как функцию чата с дополнительной автономностью. Команды, которые вырываются вперед, рассматривают агента как коллегу, использующего то же программное обеспечение, что и команда. Первые выпускают еще одну вкладку чата. Вторые выпускают работающий продукт. Сравнение редакторов кода на основе ИИ охватывает сторону разработки в этом же изменении.

Если ваш продукт будет использоваться агентом в следующем году, а большинство будет, то решения, которые вы примете в этом квартале, определят, поможет ли агент вашим пользователям или обойдет вас стороной. Пройдите контрольный список. Выберите рабочий процесс. Выпустите продукт, который принесет желаемый результат.

Если вам нужна помощь в выпуске продукта, который действительно сможет использовать следующее поколение агентов, или в интеграции использования компьютеров в вашу систему без траты четверти доллара на демо-версии, нанять Brainy. ClaudeBrainy выпускает пакеты навыков и библиотеки подсказок. AppBrainy выпускает полные сборки продуктов для команд, которые хотят, чтобы их агенты выполняли реальную работу, а не делали скриншоты.

Want help shipping a product the next wave of agents can actually use, or wiring computer use into your stack without burning a quarter on demoware? Brainy ships ClaudeBrainy as a Skill pack and prompt library, and AppBrainy ships full product builds for teams that want their agents to do real work, not screenshots.

Get Started