CFD — Content-Flow Detection
Cada mensaje que llega a su agente se analiza en busca de intención adversarial. Prompt injection, ingeniería social y llamadas a herramientas coaccionadas se detectan y bloquean antes de que el agente las procese.
- Prompt injection
- Instrucciones ocultas en documentos recuperados o respuestas de herramientas.
- Ataques de role-swap («ignora las instrucciones anteriores…»).
- Inyecciones con plantillas recientes rastreadas mediante el corpus de fingerprints del Learning Network.
- Ingeniería social
- Solicitudes tipo CEO-fraud que suplantan a usuarios autorizados.
- Patrones de urgencia y presión de autoridad diseñados para saltarse aprobaciones.
- Persuasión indirecta que intenta remodelar el alcance declarado del agente.
- Envenenamiento de contexto
- Payloads manipulados de memoria o vector store.
- Respuestas de herramientas envenenadas que vehiculan instrucciones ocultas.
- Resúmenes adversariales que se reinyectan en planes de largo horizonte.
- Coerción de llamadas a herramientas
- Intentos de forzar llamadas fuera del alcance permitido por la Alignment Card.
- Llamadas a herramientas encadenadas que cuelan una acción no autorizada.
- Ataques a la forma de argumentos contra esquemas de herramientas mal validados.
