CFD — Content-Flow Detection
Jede Nachricht, die Ihren Agenten erreicht, wird auf feindliche Absicht geprüft. Prompt Injection, Social Engineering und erzwungene Tool-Calls werden erkannt und geblockt, bevor der Agent sie verarbeitet.
- Prompt Injection
- Versteckte Anweisungen in abgerufenen Dokumenten oder Tool-Antworten.
- Role-Swap-Angriffe („Ignoriere die vorherigen Anweisungen…“).
- Frische Template-Injections, verfolgt über das Fingerprint-Korpus des Learning Network.
- Social Engineering
- CEO-Fraud-artige Anfragen, die autorisierte Nutzer imitieren.
- Urgency- und Autoritätsmuster, die Freigaben umgehen sollen.
- Indirekte Beeinflussung, die den deklarierten Scope des Agenten umformen will.
- Context Poisoning
- Manipulierte Memory- oder Vector-Store-Payloads.
- Vergiftete Tool-Antworten mit versteckten Folgeinstruktionen.
- Adversariale Zusammenfassungen, die in Long-Horizon-Pläne zurückfließen.
- Tool-Call Coercion
- Versuche, Aufrufe außerhalb des von der Alignment Card erlaubten Scopes zu erzwingen.
- Verkettete Tool-Calls, die eine nicht autorisierte Aktion einschleusen.
- Argument-Shape-Angriffe gegen schwach validierte Tool-Schemata.
