CFD — Content-Flow Detection
Ogni messaggio che raggiunge il tuo agente viene analizzato per intenti avversari. Prompt injection, social engineering e tool call coercite vengono rilevati e bloccati prima che l'agente li processi.
- Prompt injection
- Istruzioni nascoste in documenti recuperati o risposte di tool.
- Attacchi di role-swap («ignora le istruzioni precedenti…»).
- Injection basate su template recenti, tracciate tramite il corpus di fingerprint del Learning Network.
- Social engineering
- Richieste stile CEO-fraud che impersonano utenti autorizzati.
- Pattern di urgenza e pressione di autorità pensati per saltare le approvazioni.
- Adescamenti indiretti che tentano di ridisegnare lo scope dichiarato dell'agente.
- Avvelenamento del contesto
- Payload di memoria o vector store manipolati.
- Risposte di tool avvelenate che veicolano istruzioni nascoste.
- Riassunti avversariali reimmessi in piani a lungo orizzonte.
- Coercizione di tool call
- Tentativi di forzare chiamate fuori dallo scope permesso dall'Alignment Card.
- Tool call concatenate che infilano un'azione non autorizzata.
- Attacchi sulla forma degli argomenti verso schemi di tool poco validati.
