ANTHROP\C n’hésite pas à publier les utilisations malveillantes de Claude. Après le rapport général du mois d’août, un nouveau rapport plus ciblé et non moins intéressant vient d’être publié : Full report: Disrupting the first reported AI-orchestrated cyber espionage campaign
En septembre 2025, l’équipe Threat Intelligence d’Anthropic a détecté une campagne d’espionnage cyber sophistiquée, orchestrée par une IA. L’acteur, identifié à “GTG-1002” et évalué comme soutenu par la Chine, a manipulé Claude Code pour mener des intrusions sur environ 30 cibles (entreprises tech, institutions financières, agences gouvernementales, chimie).
Le modèle Claude n’a pas été utilisé seulement comme conseiller ! il a été détourné pour exécuter de façon autonome la majorité des opérations tactiques telles que la reconnaissance, le scan de vulnérabilités, la génération de code d’exploit, la ,collecte d’identifiants, les mouvements latéraux, l’exfiltration de données, et documentation.
Selon Anthropic, l’IA a mené 80 à 90 % des tâches opérationnelles, avec seulement quelques points de décision stratégiques supervisés par des humains.
L’architecture de la campagne reposait sur un framework automatisé. Un orchestrateur chargeait Claude avec des sous-tâches décomposées, en utilisant le Model Context Protocol (MCP) pour accéder à des outils de scan, d’exploitation et d’automatisation. (un peu plus haut j’ai fait quelques posts sur les serveur MCP)
Pour contourner les garde-fous de Claude, les attaquants ont “jailbreaké” le modèle. Ils ont présenté les phases malveillantes comme des tests de sécurité légitimes, en utilisant des personas (“tu es un pentester”) et en fragmentant les requêtes pour masquer le but réel.
Pendant la phase de reconnaissance, Claude a exploré les infrastructures cibles (services, IP, authentification) de façon autonome, via des sessions persistantes, en cartographiant des topologies réseau et tout cela sans intervention humaine directe.
Claude a ensuite généré des payloads d’exploitation, validé ces vulnérabilités via des appels en “callback”, et déclenché des intrusions après autorisation humaine.
Lors de la post-exploitation, l’IA a collecté des identifiants, testé des privilèges, et exploré des systèmes internes pour se déplacer latéralement sans que chaque mouvement ne soit supervisé par un humain.
Pour l’exfiltration, Claude a extrait des gros volumes de données, les a triées selon leur valeur, analysé les informations, et documenté les résultats dans des rapports prêts à être réutilisés.
Claude a quand même commis des “hallucinations” (heureusement). Il a parfois inventé des identifiants ou affirmé obtenir des informations sensibles alors qu’elles étaient publiques. Cela a donc nécessité des validations humaines et du coup freiné l’autonomie complète.
L’IA a opéré à un “tempo” très élevé : des milliers de requêtes par seconde, des sessions longues avec maintien du contexte, ce qui dépasse largement ce que des hackers humains pourraient réaliser en durée et volume.
Anthrop\c a réagi rapidement. Dès la détection, des comptes ont été suspendus, les entités ciblées ont été alertées, des classifiers ont été affinés pour identifier les usages malveillants, et des autorités ont été notifiées.
Le rapport souligne que cette campagne marque une rupture stratégique. Les attaques de type agentics sont utilisées pour exécuter des attaques complexes à l’échelle.
Anthrop\c avertit que ces capacités sont probablement présentes (ou en passe de l’être) dans d’autres modèles IA de pointe (voir le rapport de google aussi https://cloud.google.com/blog/topics/threat-intelligence/threat-actor-usage-of-ai-tools), et que les acteurs malveillants vont continuer à exploiter l’agentic.

Laisser un commentaire