Google présente Gemini 2.5 Computer Use : l’agent IA destiné à dominer le web
Points Clés :
- Gemini 2.5 permet d’exécuter des actions sur le web comme un utilisateur humain (clics, saisies, soumissions) sans passer par des APIs.
- Ce modèle, disponible en aperçu via l’API Gemini, surpasse ses concurrents en termes de rapidité et de précision sur les benchmarks web et mobiles.
- Pour garantir sécurité et fiabilité, Google limite actuellement son utilisation au navigateur, évitant ainsi le contrôle direct du système d’exploitation.
- Applications pratiques : tests d’interface utilisateur, automatisation de formulaires, assistants autonomes, et intégration dans des projets Google tels que Project Mariner ou Firebase Testing Agent.
Qu’est-ce que le Gemini 2.5 Computer Use ?
Gemini 2.5 Computer Use est un modèle d’intelligence artificielle développé pour contrôler un navigateur web de manière totalement indépendante. Contrairement aux outils conventionnels qui utilisent des APIs pour interagir avec les services en ligne, ce modèle fonctionne de façon « manuelle », manipulant l’interface comme le ferait un internaute. Grâce à la vision par ordinateur et à une compréhension approfondie du langage naturel, il analyse les captures d’écran, l’interface graphique et l’historique d’actions pour déterminer les étapes nécessaires jusqu’à la réalisation de la tâche demandée.
Fonctionnement de cet agent révolutionnaire de Google
Lorsqu’il reçoit une requête utilisateur, une capture d’écran et l’historique récent des actions dans l’environnement web, Gemini 2.5 analyse la situation visuellement et propose une action (écriture, clic, défilement) à exécuter côté client. Chaque action déclenche une nouvelle capture d’écran qui relance la boucle, continuant jusqu’à la complétion du processus ou un arrêt délibéré, que ce soit suite à un succès, une erreur ou une décision de sécurité.

Google met cette capacité à disposition via l’API Gemini, intégrable dans Google AI Studio et Vertex AI, pour les développeurs souhaitant créer des agents automatisés. L’architecture se concentre sur la rapidité avec des latences réduites et une fiabilité supérieure sur plusieurs benchmarks tels qu’Online-Mind2Web et WebVoyager.
Cas d’usage et exemples concrets
Les démonstrations de Google mettent en lumière la puissance du modèle : collecte automatisée de données sur des sites web, gestion de tâches visuelles, exécution d’actions sur des interfaces SaaS, ou encore tests d’interfaces utilisateur. Déjà intégré dans des produits internes comme Project Mariner ou Firebase Testing Agent, cet outil accélère le développement logiciel et étend les capacités d’automatisation dans l’environnement Google.
Les premiers utilisateurs soulignent la rapidité, l’autonomie et la réduction des erreurs : Gemini 2.5 Computer Use gère des workflows complexes sans intervention humaine, même sur des interfaces partiellement non structurées ou peu documentées.
Limites actuelles mais potentiel pour l’avenir
Contrairement à ChatGPT Agent ou aux services d’Anthropic comme Claude, Gemini 2.5 Computer Use se concentre sur le web avec 13 actions standard qui adressent la majorité des besoins : ouvrir un navigateur, taper, cliquer, défiler, drag & drop, soumettre des formulaires. Cette spécialisation permet à Google d’assurer un niveau de sécurité élevé, évitant le risque associé au contrôle total du système tout en exploitant l’environnement le plus universel du poste de travail moderne : le navigateur.

Sécurité : des mesures de protection intégrées
Google a investi considérablement dans la sécurité de son agent : chaque action proposée par le modèle est soumise à un service de vérification indépendant avant exécution, minimisant ainsi les risques d’utilisation malveillante ou d’erreurs critiques. Les développeurs peuvent définir des restrictions système pour exiger une confirmation humaine sur certaines actions sensibles (paiements, suppressions, contrôle système). Des recommandations de bonnes pratiques sont fournies pour limiter tout comportement à risque ou indésirable lors du déploiement.
Gemini 2.5 Computer Use marque ainsi une nouvelle étape dans la course à l’IA agentique, élargissant les horizons de l’automatisation web tout en posant les bases d’une approche responsable et sécurisée. Au-delà du simple chatbot « qui répond », c’est l’IA qui agit, exécute, et interagit désormais dans l’univers digital.
L’article « Google dévoile Gemini 2.5 Computer Use : l’agent IA qui veut maîtriser le web » est paru sur Abondance.
À lire en complément : Deux nouveaux robots d’exploration web
À découvrir également : Publicités shopping immersives et alimentées par l’IA
Avez-vous vu cela : Supprimez votre contenu des aperçus d’IA de Google
