CFD — Content-Flow Detection
Chaque message atteignant votre agent est analysé à la recherche d'intentions malveillantes. Prompt injection, ingénierie sociale et appels d'outils coercés sont détectés et bloqués avant que l'agent ne les traite.
- Prompt injection
- Instructions cachées dans les documents récupérés ou les réponses d'outils.
- Attaques de role-swap (« ignorez les instructions précédentes… »).
- Injections de templates récents suivis via le corpus d'empreintes du Learning Network.
- Ingénierie sociale
- Requêtes de type « fraude au président » usurpant l'identité d'utilisateurs autorisés.
- Schémas d'urgence et de pression d'autorité conçus pour contourner les approbations.
- Incitations indirectes tentant de redéfinir le périmètre déclaré de l'agent.
- Empoisonnement de contexte
- Payloads de mémoire ou de vector store manipulés.
- Réponses d'outils empoisonnées véhiculant des instructions cachées.
- Résumés adverses réinjectés dans des plans de long terme.
- Coercition d'appel d'outil
- Tentatives de forcer des appels hors du périmètre autorisé par l'Alignment Card.
- Appels d'outils chaînés qui font passer une action non autorisée.
- Attaques sur la forme d'arguments ciblant des schémas d'outil peu validés.
