ai for designersApril 30, 202611 min read

L'ère de l'utilisation de l'ordinateur : quand les agents d'IA peuvent réellement exécuter vos logiciels

Un guide pratique sur l'utilisation des ordinateurs IA à l'horizon mi-2026. Ce que font réellement l'utilisation des ordinateurs Anthropic, l'opérateur OpenAI et les agents natifs du navigateur, où ils sont déployés, où ils dysfonctionnent encore et les décisions de conception et de développement que chaque équipe doit prendre avant que les agents ne commencent à utiliser leur produit.

By Boone
XLinkedIn
computer use agents 2026

2025 promettait des agents autonomes et le déploiement du chat. 2026 a tenu ses promesses. La fonctionnalité qui a fait toute la différence ? L’utilisation de l’ordinateur. Le modèle voit un écran, contrôle la souris et le clavier, et navigue dans les logiciels comme un humain. Anthropic l’a déployé sous forme d’API publique. OpenAI a lancé Operator. Browserbase, Multi-On et Lutra ont déployé l’infrastructure nécessaire à sa mise en production.

Un guide pratique pour les concepteurs et les développeurs. Ce guide explique ce qu’est l’utilisation de l’ordinateur, où elle est déployée, ses limites, les exigences d’une interface utilisateur adaptée aux agents et les choix de développement qui distinguent un véritable agent d’une simple démonstration.

L’utilisation de l’ordinateur : la fonctionnalité qui a mis fin à l’ère du chat

Le chat était une interface utilisateur pour l’IA. L’utilisation de l’ordinateur, c’est le corps du système. Le modèle voit les pixels, décide où cliquer, envoie une requête, attend la capture d’écran suivante. Cette simple primitive permet de gérer tous les flux de travail sans API complexe. Alimenter un portail fournisseur. Extraire des données d’un tableau de bord sans possibilité d’exportation. Planification entre deux applications web. L'IA n'est pas devenue plus intelligente, elle a simplement gagné en autonomie.

Fonctionnement concret de l'utilisation de l'ordinateur

La boucle est mécanique. Le modèle reçoit une capture d'écran et un objectif. Il renvoie une action structurée : cliquer sur des coordonnées, saisir du texte, appuyer sur une touche, faire défiler, attendre. L'hôte exécute l'action et renvoie la capture d'écran suivante. Le processus se répète jusqu'à la fin ou en cas de blocage.

Rien de magique. Le modèle est un système de raisonnement assisté par la vision qui pilote un bureau à distance. Cela fonctionne car les modèles multimodaux sont désormais suffisamment performants pour lire l'interface utilisateur et interagir avec elle. C'est complexe car les logiciels réels sont souvent imprévisibles, et les plans parfaits résistent rarement à la première erreur d'interprétation.

Les trois versions disponibles en 2026

L'utilisation de l'ordinateur se décline aujourd'hui en trois versions, chacune reposant sur une couche différente de la pile technologique. Anthropic L'utilisation de l'ordinateur est la capacité brute, exposée sous forme d'API. OpenAI L'opérateur est l'agent utilisateur supervisé, hébergé dans le navigateur de OpenAI. Browserbase, Multi-On et Lutra constituent la couche d'infrastructure sans serveur pour les équipes qui développent leurs propres produits d'agent.

Diagramme voxel de trois dalles massives alignées sur le sol du studio, étiquettes monosyllabiques : RAW BROWSER INFRA, correspondant aux trois types d’utilisation informatique prévus pour 2026.
Diagramme voxel de trois dalles massives alignées sur le sol du studio, étiquettes monosyllabiques : RAW BROWSER INFRA, correspondant aux trois types d’utilisation informatique prévus pour 2026.

Ce choix ne repose pas sur une comparaison de fonctionnalités, mais sur la part de l'infrastructure que vous souhaitez contrôler.

Anthropic Utilisation de l'ordinateur : la capacité brute

Anthropic L'utilisation de l'ordinateur est l'offre la plus simple : un modèle qui détecte un bureau virtuel et contrôle la souris et le clavier. Vous créez un environnement isolé, vous y connectez le modèle et vous écrivez le code hôte qui effectue les actions et renvoie des captures d'écran. Replit Agent et Devin utilisent ce modèle pour les tâches d'agent les plus exigeantes. C'est le choix idéal lorsque l'agent doit gérer des applications de bureau, et pas seulement un navigateur.

Où va le budget ? Vous êtes propriétaire du bac à sable, du modèle de sécurité, de la boucle d'actions, de la logique de nouvelle tentative et du compteur de coûts. L'utilisation des jetons est élevée car chaque étape génère une capture d'écran. La latence est de deux à six secondes par étape. Fonctionnalités générales : les opérations complexes fonctionnent.

OpenAI Operator, l'agent de navigateur supervisé

OpenAI Operator est un agent de navigateur hébergé que l'utilisateur observe en temps réel. Son positionnement est axé sur le consommateur. Il suffit de lui fournir un objectif en langage naturel ; il ouvre un onglet de navigateur et vous pouvez mettre en pause, prendre le contrôle ou interrompre l'exécution à tout moment. Achats, planification, remplissage de formulaires, récupération de documents, recherches rapides : c'est son point fort.

Le point faible ? Operator est isolé dans l'environnement de OpenAI, vous ne pouvez donc pas l'intégrer à votre propre produit. Les flux authentifiés nécessitent une intervention de l'utilisateur pour se connecter. Les sites dotés de mesures anti-bots agressives le rendent incompatible. Les applications JS personnalisées avec des événements non standard sont aléatoires. Pour les utilisateurs finaux, l'expérience utilisateur la plus fluide actuellement disponible. Pour les développeurs, un concurrent, pas un outil.

Browserbase et les agents de navigateur sans serveur

Browserbase, Multi-On et Lutra fournissent l'infrastructure qui rend les agents de navigateur viables en production. Browserbase est une flotte Chromium hébergée sans serveur que votre code d'agent peut piloter. Multi-On est un agent de navigateur doté d'une API développeur. Lutra construit des agents de workflow sur la même base. Le pari est que la plupart des tâches des agents sont liées au navigateur et qu'un environnement sandbox de bureau est superflu.

Composition voxel d'un grand écran blanc cassé posé au sol dans un studio, avec des tuiles d'interface utilisateur empilées et un pointeur flottant, conçue comme une interface utilisateur conviviale pour les agents.
Composition voxel d'un grand écran blanc cassé posé au sol dans un studio, avec des tuiles d'interface utilisateur empilées et un pointeur flottant, conçue comme une interface utilisateur conviviale pour les agents.

Pour une équipe développant un produit agent, cette couche est généralement le point de départ idéal. Navigateur hébergé, persistance de session, capture d'écran, concurrence sans avoir à gérer sa propre flotte. Le coût ? Une abstraction plus légère que la pile complète Anthropic, avec moins de contrôle sur l'authentification et le stockage.

Où l'utilisation de l'ordinateur est déployée en production aujourd'hui

L'utilisation de l'ordinateur couvre un ensemble de tâches restreint mais utile. Recherche, planification, remplissage de formulaires, récupération de documents depuis des systèmes sans API, assurance qualité simplifiée, automatisation des portails fournisseurs, extraction de données depuis des tableaux de bord récalcitrants à l'exportation : autant de fonctionnalités offertes par la recherche web. Les équipes en charge du développement ont abandonné la présentation de solutions d'intelligence générale pour se concentrer sur un outil spécifique adapté à une tâche précise.

Le modèle qui fonctionne : un périmètre d'application restreint, une exécution supervisée, des critères de réussite clairs et une prise en charge rapide par un humain en cas de blocage. Replit Agent l'utilise pour déployer des tableaux de bord. Devin navigue dans les consoles fournisseurs lors de longs projets d'ingénierie. Operator gère les achats et les voyages des consommateurs. Multi-On exécute des flux de travail verticaux pour les ventes et les opérations. Aucun n'est un agent généraliste. Tous sont d'excellents produits.

Les limites de l'utilisation de l'ordinateur

L'utilisation de l'ordinateur présente des limites pour la prise de décision en temps réel, les flux de travail complexes multi-applications et toute authentification dépassant la simple connexion. Les démonstrations qui passent sous silence ces aspects sont à éviter. ACT-1 d'Adept en est un parfait exemple : une démonstration réussie qui n'a jamais abouti à un produit viable, et l'équipe a finalement changé de cap.

Ce qui ne fonctionne pas. Les tâches où l'agent doit analyser un graphique et prendre une décision. Les flux de travail impliquant quatre ou cinq applications avec transfert d'état. Les sites web avec beaucoup de code JS personnalisé, des identifiants dynamiques ou des mesures anti-bots agressives. Les flux nécessitant une authentification multifacteur (MFA), une actualisation OAuth ou des jetons de session que l'utilisateur ne partagera pas. Les tâches complexes de plus de vingt étapes échouent en raison de taux d'erreur cumulatifs. L'utilisation d'un ordinateur représente environ 10 à 15 % des flux de travail que vous souhaiteriez automatiser. Les produits gagnants ont sélectionné les 10 % les plus pertinents.

Implications de conception pour une interface utilisateur adaptée aux agents

Si votre produit se veut utile à un agent utilisant un ordinateur, son interface utilisateur doit être lisible. La plupart des interfaces actuelles ne le sont pas. L'agent analyse les pixels. Il a besoin d'une structure visible, de modèles prévisibles et d'étiquettes claires. Tout ce qui rend une interface utilisateur adaptée aux agents la rend également accessible. Les mêmes critères d'accessibilité s'appliquent aux deux.

L'accessibilité n'est plus une option. Les équipes ayant déployé des bibliothèques de composants propres et accessibles remportent déjà cette manche. Les équipes qui utilisent des déclencheurs au survol, des widgets canvas personnalisés et des boutons à icônes ambigus risquent de se rendre compte que leur produit est invisible pour la prochaine génération d'utilisateurs.

Checklist d'interface utilisateur adaptée aux agents

Appliquez cette checklist à toute interface destinée aux agents. Elle est volontairement concise.

Premièrement : HTML sémantique. Boutons, champs de saisie, titres et libellés clairs. Un code HTML personnalisé, même esthétique, est incompréhensible pour les technologies d'assistance, et l'est tout autant pour les agents.

Deuxièmement : Intuition prévisible. Une même action se trouve au même endroit sur chaque page. Les appels à l'action principaux sont placés de manière cohérente. Les formulaires ont une mise en page unique. La navigation est stable.

Troisièmement : Libellés accessibles. Chaque élément interactif possède un libellé clair et lisible. Les boutons à icônes uniquement sont dotés d'attributs aria-label. Les champs de formulaire ont des libellés explicites et visibles, et non de simples espaces réservés.

Quatrièmement : Hiérarchie visuelle claire. L'agent doit lire la page à partir d'une capture d'écran. Contraste marqué, sections claires et taille de police cohérente. Ce qui est scrutable par un humain l'est aussi par un modèle.

Cinquièmement. Pas de déclencheurs au survol. Tout élément important doit être accessible sans survol. Les menus, infobulles et options de suppression au survol sont obsolètes dans un environnement d'agents. L'agent ne survole pas la page.

Implications pour le développement : utilisation d'outils vs utilisation par ordinateur vs hybride

L'utilisation par ordinateur est une solution de dernier recours. Les API d'utilisation d'outils sont plus avantageuses en termes de coût, de latence et de fiabilité pour tout ce qui dispose d'une API claire. Le modèle hybride est celui adopté par la plupart des systèmes en production.

Composition voxel de trois socles sur le sol du studio, étiquettes monosyllabiques OUTIL VOIR HYBRIDE lecture comme les trois motifs d'intégration
Composition voxel de trois socles sur le sol du studio, étiquettes monosyllabiques OUTIL VOIR HYBRIDE lecture comme les trois motifs d'intégration

L'utilisation d'outils est directe. L'agent appelle une fonction, qui renvoie des données structurées. Coût faible, latence faible, fiabilité élevée. Le protocole MCP (Model Context Protocol) et les principales API d'utilisation d'outils couvrent ce type de cas. Utilisez-le pour tout ce qui peut être encapsulé dans une API. L'utilisation par ordinateur est la solution de repli lorsque le système ne possède pas d'API, refuse d'en exposer une ou masque l'action derrière une interface utilisateur tierce.

Le modèle hybride s'impose. Privilégiez les outils pour tout ce qui est possible et optez pour l'informatique pour les tâches plus spécifiques. Les appels d'outils sont peu coûteux, tandis que les étapes informatiques le sont beaucoup moins. Un agent composé à 90 % d'outils et à 10 % d'ordinateurs coûte dix fois moins cher qu'un agent utilisant uniquement l'informatique.

Vous souhaitez développer un produit utilisable par la prochaine génération d'agents ou intégrer l'informatique à votre infrastructure sans dépenser une fortune en démos ? Embaucher Brainy. ClaudeBrainy propose Claude Compétences sous forme de pack de compétences et de bibliothèques d'invites qui optimisent la couche de modélisation. AppBrainy, quant à lui, fournit des solutions complètes aux équipes qui souhaitent que leurs agents effectuent des tâches concrètes, et non de simples captures d'écran.

Produits intégrant l'informatique dès 2026

Replit Agent utilise Claude l'informatique pour les déploiements et l'infrastructure, sans API dédiée. Devin navigue entre les consoles des fournisseurs, les tableaux de bord et les panneaux d'administration lors de longues tâches d'ingénierie. L'opérateur gère les achats, la planification et le remplissage des formulaires pour les clients. Browserbase alimente de nombreuses startups spécialisées dans les agents verticaux. Multi-On propose une automatisation des flux de travail native au navigateur pour les ventes et les opérations. Lutra est le générateur de flux de travail intégré.

Leur point commun : un périmètre restreint, une transition rapide, un état observable, une gestion des erreurs efficace et une comptabilité des coûts réaliste. Ils gèrent l’utilisation de l’ordinateur comme les bonnes équipes d’ingénierie gèrent toute dépendance instable : encapsulation, sécurisation, instrumentation et planification des pannes.

Quatre modes de défaillance courants

Premièrement : le piège de l’agent généraliste. Une équipe choisit l’utilisation de l’ordinateur pour un flux de travail qui aurait nécessité un appel à un outil. L’agent perd ainsi 30 secondes et 50 centimes pour une tâche qu’un appel API aurait pu accomplir en 100 millisecondes. Solution : privilégier l’utilisation de l’outil, réserver l’utilisation de l’ordinateur aux cas particuliers.

Deuxièmement : le piège du non-sous-supervision. Un agent non supervisé exécute un flux de travail qui modifie des données réelles ; une erreur à l’étape 17 entraîne la perte des données. Solution : exécution supervisée pour toute opération destructive, validation des écritures, simulation par défaut.

Troisièmement : Le piège du sélecteur fragile. Les invites dépendent d'états spécifiques de l'interface utilisateur ; le site cible se met à jour et l'agent cesse de fonctionner sans avertissement. Solution : baser les invites sur l'intention, et non sur les coordonnées en pixels. Tester chaque semaine sur des sites réels.

Quatrièmement. Le piège de la cécité aux coûts. Déployez la fonctionnalité, la facture arrive et le modèle économique ne fonctionne pas. Solution : modéliser le coût par tâche avant le lancement. Un coût inférieur à 50 centimes par exécution est généralement viable. Un coût supérieur à 5 dollars par exécution l'est rarement.

La matrice de décision pour les concepteurs et les développeurs

Concepteur, développeur front-end, développeur back-end, fondateur. Chaque rôle a une première action différente.

| Rôle | Première action | Pourquoi |

|---|---|---|

| Concepteur | Appliquer la checklist d'interface utilisateur adaptée aux agents | La plupart des interfaces utilisateur actuelles sont invisibles pour les agents. Corriger cela en priorité. |

| Développeur front-end | Déployer du HTML sémantique, des étiquettes ARIA et des modèles de composants prévisibles | Le même travail qui permet de déployer Intégration de produits IA assure la compatibilité avec les agents. |

| Développeur back-end | Créez une API d'utilisation d'outils pour chaque action exposée par votre produit | L'utilisation d'outils est avantageuse en termes de coût et de fiabilité. L'utilisation d'un ordinateur est une solution de repli. |

| Fondateur | Choisissez le flux de travail d'agent le plus simple qui apporte une réelle valeur ajoutée | Les solutions ciblées sont gagnantes. Les agents généralistes sont perdants. |

Le travail est inégalement réparti. Les concepteurs et les développeurs front-end se chargent de la lisibilité des agents. Les développeurs back-end se chargent de l'utilisation d'outils. Les fondateurs choisissent la voie à suivre.

FAQ

Qu'est-ce que l'utilisation d'un ordinateur par l'IA ?

L'utilisation d'un ordinateur est la capacité qui permet à un modèle d'IA de voir un écran, de contrôler une souris et un clavier, et de naviguer dans un logiciel comme un humain. Anthropic Utilisation d'un ordinateur, OpenAI Opérateur et les agents natifs du navigateur de Browserbase, Multi-On et Lutra sont les implémentations de niveau production en 2026. Le modèle prend une capture d'écran, choisit une action, envoie un appel d'outil et attend la capture d'écran suivante.

L'utilisation de l'ordinateur (Anthropic) est-elle meilleure que l'opérateur (OpenAI) ?

La notion de « meilleur » prend différentes formes. L'utilisation de l'ordinateur (Anthropic) offre aux développeurs les capacités brutes. L'opérateur est un produit hébergé destiné aux consommateurs. Les développeurs choisissent l'utilisation de l'ordinateur (Anthropic) ou une infrastructure de type Browserbase. Les utilisateurs finaux optent pour l'opérateur. Ce sont des fonctions différentes, et non des concurrents directs.

Un agent navigateur peut-il gérer toute mon entreprise ?

Non, et les produits qui le promettent ne sont pas les plus sûrs. L'utilisation de l'ordinateur couvre environ 10 à 15 % des flux de travail d'une équipe type. La solution gagnante consiste à utiliser des agents spécialisés sur des flux de travail spécifiques, avec une prise en charge rapide par les utilisateurs. L'ACT-1 d'Adept illustre ce à quoi ressemble une solution d'agent généraliste à grande échelle.

Dois-je repenser mon produit pour les agents IA ?

Si vous proposez une interface utilisateur accessible avec du HTML sémantique, des modèles prévisibles et des étiquettes claires, vous êtes presque au but. Si votre produit utilise des menus contextuels, des widgets canvas personnalisés et des boutons d'icônes sans étiquette, alors oui. L'accessibilité est synonyme de convivialité pour les agents.

Quand privilégier l'utilisation d'un ordinateur plutôt qu'une API d'utilisation d'un outil ?

Presque jamais en premier lieu. Les API d'utilisation d'un outil sont plus avantageuses en termes de coût, de latence et de fiabilité lorsqu'une API est disponible. L'utilisation d'un ordinateur est la solution de repli pour les systèmes sans API. En 2026, la plupart des agents en production seront hybrides : 90 % d'utilisation d'un outil et 10 % d'utilisation d'un ordinateur.

Le véritable atout de l'utilisation d'un ordinateur

L'utilisation d'un ordinateur ne se résume pas à un chatbot plus intelligent. C'est la première fois qu'une IA peut manipuler un outil comme un humain. Il s'agit d'une catégorie de produit différente, et les équipes qui la conçoivent dès la conception auront le vent en poupe au cours des douze prochains mois.

La plupart des équipes considèrent encore les agents comme une simple fonctionnalité de chat avec une autonomie ajoutée. Les équipes les plus avancées considèrent l'agent comme un collaborateur utilisant le même logiciel que l'équipe. Les premières proposent un onglet de chat supplémentaire. Les secondes proposent un produit fonctionnel. Le Comparaison des éditeurs de code IA aborde l'aspect développement de cette même évolution.

Si votre produit est utilisé par un agent au cours de l'année à venir (et ce sera probablement le cas), les décisions de conception que vous prendrez ce trimestre détermineront si l'agent aidera vos utilisateurs ou s'il vous ignorera complètement. Suivez la checklist. Choisissez le flux de travail. Déployez la solution la plus efficace.

Si vous souhaitez de l'aide pour déployer un produit que la prochaine génération d'agents pourra réellement utiliser, ou pour intégrer l'utilisation de l'informatique à votre infrastructure sans dépenser un centime en logiciels de démonstration, consultez le embauche Brainy. ClaudeBrainy propose des packs de compétences et des bibliothèques de prompts. AppBrainy propose des versions complètes du produit pour les équipes qui souhaitent que leurs agents effectuent un travail concret, et non de simples captures d'écran.

Want help shipping a product the next wave of agents can actually use, or wiring computer use into your stack without burning a quarter on demoware? Brainy ships ClaudeBrainy as a Skill pack and prompt library, and AppBrainy ships full product builds for teams that want their agents to do real work, not screenshots.

Get Started

More from Brainy Papers

Keep reading