Pour que l'IA puisse véritablement « utiliser les ordinateurs comme un humain », un puissant cerveau doté d'un raisonnement logique ne suffit pas ; elle a également besoin d'une paire d'« yeux » capables d'interpréter avec précision l'écran.AnnoncerL'acquisition de la start-up d'IA Vercept visait son modèle Claude.Fonction « Utilisation de l'ordinateur » (Fonctionnement de l'ordinateur)En corrigeant la principale faiblesse de la reconnaissance visuelle, nous nous orientons officiellement vers la vision ultime d'une « automatisation sans API ».
Depuis l'introduction de la fonctionnalité « Utilisation de l'ordinateur » avec Claude 3.5 Sonnet en octobre 2024, Anthropic a suscité un vif intérêt au sein de la communauté des développeurs. Cette fonctionnalité confère à Claude la capacité de « regarder l'écran, déplacer la souris, saisir du texte au clavier et interagir avec différents logiciels » comme un humain, et représente une étape clé pour Anthropic dans son entrée sur le marché des agents d'IA.
Cependant, dans les applications pratiques, Claude est encore souvent confronté au défi d'un positionnement visuel imprécis lorsqu'il s'agit d'interfaces utilisateur (IU) complexes et dynamiques.
Acquisition de Vercept : De la « compréhension de la logique » à la « compréhension de l'interface utilisateur »
C’est précisément la raison principale pour laquelle Anthropic a décidé de prendre Vercept sous son aile.
Vercept est une startup spécialisée dans le développement d'agents d'IA axés sur la vision. Ses technologies clés reposent sur une reconnaissance d'interface utilisateur très précise et des capacités de raisonnement spatial.
Auparavant, l'automatisation traditionnelle par IA s'appuyait principalement sur des connexions API ou la syntaxe HTML pour explorer les éléments des pages web. L'approche technique de Vercept, quant à elle, privilégie une « automatisation sans API », permettant à l'IA de comprendre l'écran intégralement grâce à une analyse visuelle pixel par pixel. Elle peut ainsi identifier avec précision les boutons cliquables, les champs de saisie, les menus déroulants, et même comprendre la hiérarchie entre les fenêtres.
L'intégration de cette technologie dans Claude signifie que les futures fonctions d'utilisation de l'ordinateur ne seront plus sujettes à la situation embarrassante de « cliquer au mauvais endroit » ou de « ne pas trouver le bouton ».
Analyse de la concurrence sur le marché : le champ de bataille de l’IA se déplace vers le « contrôle par interface graphique »
L'acquisition par Anthropic va sans aucun doute intensifier la course à l'armement entre les géants de la tech dans le domaine de l'IA. À mesure que les capacités de génération de texte des grands modèles de langage s'homogénéisent, le prochain facteur déterminant est la capacité à contrôler au mieux l'interface utilisateur, tant sur ordinateur que sur mobile.
Le paysage concurrentiel actuel du marché est très clair :
• Anthropique (Claude) :Grâce à sa fonctionnalité d'utilisation de l'ordinateur, leader du secteur, et désormais à la technologie de raisonnement spatial visuel de Vercept, Anthropic se forge un avantage technologique considérable dans les flux de travail d'automatisation des postes de travail en entreprise.
• OpenAI :Auparavant activement promuNom de code « Opérateur »et lancé des outils d'agents d'IAFonction proxy d'agent ChatGPT généraleIl se targue également de pouvoir prendre le contrôle du navigateur de l'ordinateur de l'utilisateur pour effectuer des tâches complexes, et devrait concurrencer directement Claude's Computer Use.
• Google:interneNom de code « Projet Jarvis »Le projet a ensuite été lancé.Un modèle nommé Utilisation de l'ordinateurCela permet à Gemini de prendre le contrôle du navigateur Google Chrome, aidant ainsi les utilisateurs à automatiser des tâches telles que les achats et la réservation de billets sur les pages Web.
• Nouvelles forces :Comme l'a récemment publié Perplexity...« Ordinateur de perplexité »En coordonnant et en mobilisant plusieurs modèles (visuels et textuels) pour automatiser les tâches, cette technologie démontre que « l’automatisation par la collaboration inter-modèles » constitue une nouvelle voie novatrice. Le « Doubao AI Phone » de ByteDance, lancé en collaboration avec ZTE, a également suscité un vif intérêt grâce à son mode agent IA qui reconnaît les interfaces logicielles et simule les processus d’utilisation humaine.
Analyse des points de vue
L'importance stratégique de l'acquisition de Vercept par Anthropic réside dans la libération des logiciels traditionnels des limitations de l'automatisation.
Dans les environnements d'entreprise, de nombreux systèmes ERP obsolètes, logiciels internes développés sur mesure ou applications hautement sécurisées sont dépourvus d'API permettant l'interaction avec des programmes externes. Si Claude disposait d'une vision aussi précise que celle d'un humain, lui permettant de manipuler directement ces systèmes logiciels existants, il libérerait un potentiel considérable en termes de productivité.
L'IA a déjà prouvé sa capacité à rédiger d'excellents articles et du code de qualité ; désormais, Anthropic s'apprête à faire de Claude un véritable « employé numérique à temps plein », capable de prendre en charge toutes les tâches fastidieuses de clics sur ordinateur. Cette bataille pour le contrôle de l'interface ne fait que commencer.



