Après OpenAI, une autre entreprise spécialisée en intelligence artificielle, Anthropic, a également ouvert le bal. Auparavant, l'annonce officielle…Déclaration de sortieLe rapport allègue que trois start-ups chinoises spécialisées dans l'IA, dont DeepSeek, extraient illégalement les données conversationnelles de Claude par le biais d'« attaques par distillation » à grande échelle afin d'améliorer les capacités des modèles de leurs concurrents.

Face à l'intensification de la concurrence dans le domaine de la modélisation du langage naturel (LLM), les données d'entraînement de haute qualité sont devenues un atout précieux pour de nombreuses entreprises. Selon certaines sources, Anthropic, développeur du chatbot IA Claude, a lancé un appel véhément sur son site web, nommant nommément les sociétés chinoises d'IA DeepSeek, Moonshot et MiniMax, les accusant d'avoir orchestré une opération d'envergure industrielle pour s'approprier illégalement les fonctionnalités de Claude.
Plagiat « à grande échelle » impliquant 2.4 000 faux comptes et 16 millions de conversations.
Dans le secteur de l'IA, le terme « distillation de modèles » n'est pas nouveau. Il désigne généralement l'entraînement et l'amélioration de modèles plus petits et moins performants grâce à l'apprentissage à partir des résultats de modèles plus puissants (tels que GPT-4 ou Claude). Si les techniques de distillation constituent des méthodes d'optimisation légitimes sous certaines licences, Anthropic souligne que les agissements de ces entreprises ont franchi la ligne rouge et relèvent d'une attaque malveillante.
Anthropic souligne que ces trois entreprises chinoises spécialisées en IA ont utilisé au total environ 24 000 faux comptes frauduleux pour mener plus de 16 millions de conversations approfondies avec Claude. Anthropic estime que ces concurrents utilisent Claude comme un raccourci dans leurs activités de recherche et développement, non seulement pour développer rapidement des modèles d'IA plus avancés, mais aussi potentiellement pour contourner les mesures de sécurité mises en place par le fabricant d'origine.
Les preuves sont-elles accablantes ? Anthropic s’engage à renforcer ses défenses.
Quant à savoir comment Anthropic a attrapé ces « taupes » ?
Le communiqué officiel indique qu'en suivant la corrélation des adresses IP, en comparant les requêtes de métadonnées et les caractéristiques de l'infrastructure, et en recoupant les informations avec d'autres acteurs du secteur de l'IA ayant observé un comportement anormal similaire, ils ont la « grande confiance » de pouvoir relier ces attaques par distillation aux trois entreprises chinoises spécifiques mentionnées ci-dessus.
En réalité, ce n'est pas un cas isolé dans le secteur. Dès le début de l'année dernière, OpenAI avait formulé des accusations similaires, affirmant que des concurrents utilisaient une technologie de distillation pour reproduire les capacités de ses modèles, et avait par conséquent bloqué un grand nombre de comptes suspects. En réponse, Anthropic s'était engagé à moderniser en profondeur les mécanismes de défense de son système, rendant ainsi les futures attaques par distillation plus difficiles à exécuter et plus faciles à détecter.
Cependant, cet incident comporte aussi une pointe d'ironie : alors qu'Anthropic accuse bruyamment les autres de « vol de données », l'entreprise fait elle-même face aux critiques de plusieurs éditeurs musicaux.Litiges en matière de contrefaçonIl a été accusé d'avoir utilisé illégalement des paroles de chansons protégées par le droit d'auteur pour entraîner Claude.
Analyse des points de vue
Cette « guerre de distillation » a révélé l'aspect le plus frustrant mais aussi le plus réaliste du développement actuel de l'industrie de l'IA : les données d'entraînement de haute qualité s'épuisent.
Pour les entreprises chinoises d'IA comme DeepSeek et Moonshot, qui ont démarré plus tard ou sont limitées par l'embargo américain sur la puissance de calcul haut de gamme, l'entraînement de modèles de pointe à partir de zéro avec des données propres et triées provenant d'Internet est trop long et coûteux en ressources de calcul. Quelle est la solution la plus rapide ? « Interroger » directement les IA les plus performantes au monde (comme Claude ou ChatGPT) et leur fournir ensuite ces « réponses de référence », bien organisées et rigoureuses sur le plan logique : c'est ce qu'on appelle la « distillation ».
La colère d'Anthropic est parfaitement compréhensible. Après tout, les résultats de ses efforts, qui ont coûté des centaines de millions de dollars en puissance de calcul, ont été facilement « volés » par quelqu'un d'autre grâce aux frais d'appel API de dizaines de milliers de comptes.
Cependant, cela reflète aussi une sorte d'écosystème « serpentin » sur le marché actuel de l'IA : les géants de la tech récupèrent sans autorisation l'intégralité du contenu protégé par le droit d'auteur sur Internet pour entraîner leurs modèles, tandis que les startups récupèrent ensuite, sans autorisation, les modèles de ces géants pour entraîner leurs propres modèles, plus modestes. Tant qu'une réglementation véritablement mondiale sur le droit d'auteur des données d'IA ne sera pas mise en place, cette guerre de « vous me copiez, je vous copie » ne fera probablement que s'intensifier.


