Prompt fingerprinting

Un nouvel article de deux spécialistes IA et conformité de Microsoft vient d’être publié sur arxiv : Cross-Service Threat Intelligence in LLM Services using Privacy-Preserving Fingerprints

Il adresse un problème de sécurité / conformité lié au déploiement massif de modèles de langage (LLM) dans les entreprises. Il s’agit de la détection et la corrélation d’attaques (les prompt injections) à travers des services cloisonnés par des contraintes de confidentialité et de conformité réglementaire.

Dans de grandes organisations, plusieurs services LLM indépendants (assistants internes, applications publiques, API, etc.) traitent quotidiennement des milliards de requêtes. Ces services sont « silotés » en raison de politiques de gouvernance et de contraintes réglementaires, ce qui empêche le partage de données brutes et donc de renseignements sur les menaces.

Cette isolation détériore la posture globale de sécurité car une attaque détectée sur un service ne profite pas suffisament aux autres, et les équipes ne peuvent pas corréler les incidents ou renforcer proactivement leur défense.

Pour palier à ce problème, les auteurs proposent BinaryShield. Il s’agit d’un système de partage sécurisé et respectueux des contraintes réglementaires. Il génère des empreintes (je préfère le mot anglais fingerprints) de prompts.

Le cœur de BinaryShield est un pipeline de transformation des prompts suspects en empreintes non-réversibles, qui permettent de capturer l’essence sémantique des attaques sans exposer de données sensibles.

Le pipeline comprend plusieurs étapes clés :

Suppression des informations personnelles (PII) pour éliminer tout contenu sensible.
Extraction de caractéristiques sémantiques à l’aide d’embeddings de texte générés par des modèles de langage.
Quantification binaire de ces embeddings (conversion en vecteurs binaires), ce qui rend impossible la reconstruction exacte du texte d’origine.
Application d’un mécanisme de réponse aléatoire (inspiré de la differential privacy) pour ajouter du bruit contrôlé, offrant une garantie de non réversibilité tout en conservant suffisamment d’information pour la corrélation d’attaques.

Ces étapes produisent des empreintes binaires compactes qui préservent la confidentialité et qui peuvent être partagées entre services sans violer les règles de gouvernance.

Le système est conçu pour permettre aux équipes de sécurité de rechercher efficacement des motifs d’attaque similaires dans les logs historiques à travers différents services, même si ceux-ci sont isolés.

Les auteurs présentent une évaluation complète montrant que BinaryShield :

Améliore nettement la corrélation des attaques par rapport à des approches basées sur SimHash (F1-score ~0,94 contre ~0,77).
Réduit substantiellement les coûts de stockage et de recherche (stockage réduit par 64×, recherche ~38× plus rapide).
Offre un bon équilibre entre confidentialité et pertinence, grâce au réglage des paramètres de bruit pour la réponse aléatoire.

Prompt fingerprinting

Partager :

Laisser un commentaire Annuler la réponse.