Mnemom AEGIS

Red defensiva multi-tenant para agentes de IA.

Mnemom AEGIS — Adaptive Enforcement, Governance & Intelligence Substrate — es la red de seguridad en runtime detrás de la Safe House. Examina cada transacción del agente en cuatro checkpoints — front door, back door, inside.autonomy, inside.integrity — cada uno configurable de forma independiente en cuatro modos de enforcement. Las Managed Rules firmadas portan un objetivo SLO de propagación multi-tenant P95 por debajo de 30 segundos (primeras mediciones publicadas 30 días tras el GA).

AAP declara. AIP verifica en vuelo. CLPI gobierna y ancla. Safe House filtra. AEGIS firma las defensas cross-tenant.

El modelo de amenazas.

Siete patrones de ataque definen hoy la superficie de amenaza agéntica. Cada uno se mapea a uno de los cuatro checkpoints — de modo que los clientes regulan el enforcement por superficie, no como una postura global única.

AmenazaCheckpointCómo se ve
Prompt injectionfront doorIntentos directos de sobrescribir las instrucciones del agente, invertir su rol o esquivar el scope declarado en la superficie entrante.
Inyección indirectafront doorInstrucciones ocultas escondidas dentro de documentos recuperados, salidas de tool y payloads de vector store — el prompt que el agente nunca supo que había recibido.
Uso indebido de toolinside.autonomyLlamadas a tool coaccionadas o encadenadas que exceden el scope permitido por la Alignment Card. Ataques sobre la forma de los argumentos contra esquemas insuficientemente validados (OWASP ASI02).
Exfiltración de datosback doorPII, PHI, secretos, credenciales o datos cross-tenant devueltos en respuestas del agente, trazas de error o patrones de split-token.
Fraude BEC / suplantaciónfront doorSolicitudes al estilo fraude del CEO, presión de urgencia y autoridad, ingeniería social que apunta al contrato de escalado del agente.
Suplantación de agenteinside.integrityIntentos de abuso de identidad que reclaman una autoridad no declarada por la Alignment Card. OWASP ASI03 — Privilege Compromise via Identity Abuse.
Compromiso de la supply chaininside.integrityFirmas de comportamiento consistentes con un SDK comprometido, un fine-tune de modelo o una plantilla de prompt vendored — detectadas cross-tenant vía substrate fingerprinting (OWASP ASI06).

Cuatro checkpoints × cuatro modos de enforcement.

Cada checkpoint es configurable de forma independiente. La composición sigue el principio strictest-wins a través de Platform → Org → Team → Agent, de modo que el ajuste más estricto de cualquier capa siempre prevalece. Funciona de forma análoga a cómo Cloudflare WAF Managed Rules le permiten definir severity × action por regla.

Modo
off
observe
nudge
enforce
front door
Screening de mensajes entrantes — cada prompt, payload de retrieval y respuesta de tool antes de que el agente los procese.
back door
Screening de respuestas salientes — PII, secretos, violaciones de Alignment Card, consejo regulado antes de que la respuesta abandone el perímetro.
inside.autonomy
Screening de llamadas a tool — cada acción que el agente ejecuta contra los límites de autonomía declarados por la Alignment Card.
inside.integrity
Screening de la integridad del razonamiento — veredictos AIP sobre payloads thinking-block; firmas de desviación del substrate; patrones de abuso de identidad.
off

Checkpoint deshabilitado. Usado en tenants canary y antes del onboarding.

observe

Evalúa cada transacción; emite veredictos firmados; nunca bloquea. El valor por defecto para nuevas Managed Rules durante el soak observe de 24 horas.

nudge

Anota o advierte en línea sin bloquear. El término medio para reglas tier-3 durante la fase de ramp-up.

enforce

Bloquea la transacción y hace emerger un veredicto firmado en el panel. Solo se alcanza tras el soak observe y la disciplina de auto-rollback sobre la tasa de FP (CLPI Phase 2).

Cascada de composición: Platform → Org → Team → Agent, strictest-wins. Los admins de cliente pueden ajustar más estricto en cualquier capa.

El pipeline Managed Rules.

Las recipes son contenido de detección. Las Managed Rules son el estado firmado del control-plane que las envuelve. El pipeline está restringido estructuralmente — no procedimentalmente — de modo que las reglas tier-1 y tier-2 no pueden auto-promocionarse, sin importar el modo fijado por el operador.

  1. 1. Arena

    Quince personas adversarias canónicas sondean Safe House 24/7. La mutation-phase gating se activa por bucket solo cuando la tasa de detección cruza el 95 % sobre una ventana móvil de 48 horas con histéresis de 24 horas.

  2. 2. Candidate

    Los candidatos que superan la arena entran en una cola de revisión aislada con una ruta de escritura estrictamente separada, de modo que el sistema que propone el contenido de detección nunca puede ser el mismo que lo aprueba. Los informes de falsos negativos y falsos positivos de los clientes y las señales de red cross-tenant confluyen todos en la misma cola.

  3. 3. Review

    Tres modos de reviewer — manual (por defecto), auto-approve-trusted-sources, auto-approve-high-confidence. Tier-1 / tier-2 requieren siempre review en dual-control bajo una cadena de auditoría append-only.

  4. 4. Soak observe 24h

    Cada promotion firmada aterriza en modo observe durante 24 horas. El auto-rollback por tasa de FP según CLPI Phase 2 retira la recipe antes de que se bloquee tráfico de producción.

  5. 5. Enforce

    El failover tiered KV+R2+isolate-cache con cadenas de firma independientes empuja la regla a cada gateway. P95 ≤ 30 s entre promotion firmada y carga en gateway.

El invariante protector

Una Managed Rule de tier-1 o tier-2 — una que realmente bloquearía tráfico de producción real — nunca puede promocionarse sin una revisión humana de dos personas, por muy agresivo que esté configurado el modo de auto-promoción. La garantía se impone de forma estructural, en el propio modelo de datos: una regla activa no puede existir mientras no se haya alcanzado su quórum de revisión. Es una propiedad del sistema, no un procedimiento que alguien deba recordar seguir.

Garantizado por el modelo de datos, no por la disciplina del operador.

Substrate fingerprinting + detección de supply chain.

Cada evaluación se sella con un substrate fingerprint — el proveedor, el modelo y la versión del SDK detrás de la solicitud, más un lockfile hash opcional aportado por el cliente y enviado mediante la cabecera `X-Mnemom-Lockfile-Hash`. AEGIS observa la desviación de comportamiento en todos los clientes que se ejecutan sobre el mismo substrate, de forma simultánea.

El 11 de mayo de 2026 — el gusano Mini Shai-Hulud comprometió más de 170 paquetes npm y 2 paquetes PyPI, incluyendo la suite SDK de Mistral AI y el paquete PyPI de Guardrails AI. Las versiones comprometidas de `@tanstack/*` se distribuyeron con atestaciones SLSA Build Level 3 válidas — el primer caso documentado de un gusano produciendo provenance firmada legítima para paquetes maliciosos. La detección por tenant y la verificación Sigstore a nivel de paquete no pueden estructuralmente capturar esta clase de ataque.

OWASP Top 10 for Agentic Applications.

Mapeo honesto. Donde la cobertura es parcial, lo decimos. La taxonomía OWASP ASI completa (dic. 2025) está en owasp.org.

Categoría OWASPCoberturaCómo la aborda AEGIS
ASI02 — Tool Misuse
Completa
Policy engine (CLPI Phase 1) + Managed Rules en el checkpoint inside.autonomy. Screening de llamadas a tool contra los límites de autonomía declarados por la Alignment Card.
ASI03 — Privilege Compromise via Identity Abuse
Completa
Límites de autonomía declarados por AAP (Alignment Card) + veredictos de integridad en vuelo AIP + screening en el checkpoint inside.integrity para patrones de abuso de identidad.
ASI06 — Agentic Supply Chain Compromise
Completa (runtime)
Substrate fingerprinting en cada evaluación. El agregador cross-tenant detecta desviaciones de comportamiento que ningún cliente por sí solo puede ver. Complementa — no sustituye — la procedencia a nivel de paquete (SLSA, Sigstore).
ASI07 — System Prompt Leakage
Parcial
Screening en el checkpoint back-door de patrones conocidos de system prompt + secretos y violaciones de Alignment Card. La detección es basada en contenido; los agentes que citan legítimamente su system prompt a petición del usuario no se suprimen.

ASI01 (Prompt Injection), ASI04 (Resource Exhaustion), ASI05 (Cascading Hallucination), ASI08 (Repudiation & Untraceability), ASI09 (Identity Spoofing), ASI10 (Overreliance) se mapean a otras partes del stack Mnemom (AAP cards, veredictos AIP, anclaje on-chain CLPI, Trust Ratings) — cubiertas en /protection-network y /trust.

Cómo se compara AEGIS.

Resumen de la investigación del panorama competitivo del 23 de mayo de 2026. AEGIS es la capa de red; los vendors abajo son complementarios, no reemplazos — vea /governance para la historia de integración completa.

CapacidadMnemom AEGISCloudflare WAFLakera GuardCisco AI DefenseAWS Bedrock GuardrailsGoogle Model Armor
Managed Rules cross-tenant con promotion firmada
Sí — firmadas con Ed25519, propagación P95 ≤ 30 s, cadena de auditoría pública
Managed Rules WAF (capa web, no capa de agente)Threat-intel curada por el vendor; ninguna señal derivada de la red de clientesSDK embed en build-time; ninguna red cross-tenant en runtimeSolo AWS; sin aprendizaje cross-clienteFiltro in-process; sin red
Modelo cuatro-checkpoints × cuatro-modos por agente
Sí — front door / back door / inside.autonomy / inside.integrity, cada uno configurable de forma independiente
Reglas WAF por ruta; no moldeadas para transacción de agenteDetector único en runtimeIntegración NeMo Guardrails; política en build-timeBedrock Guardrails por política (denylist, PII, contextual grounding)Filtros prompt-injection + URL + contenido dañino
Substrate fingerprinting (provider + model + versión del SDK) en cada evaluación
Sí — detección cross-tenant de supply chain
NoNoNoNoNo
IoC feed público STIX 2.1 + advisories firmados
Sí — /v1/trust/iocs (vacío al GA por diseño)
Solo feeds Radar internos al clienteSin feed públicoTalos para amenazas tradicionales; sin IoC feed agéntico públicoNoNo
Invariante de dual-control en tier-1/-2 (impuesta en el modelo de datos)
Sí — impuesto por el esquema, no procedimental
Change-management procedimentalControlado por el vendorControlado por el vendorIAM de política del clienteControlado por el vendor

Fuentes: documentación pública de los vendors, 23 de mayo de 2026. AEGIS es una capa que los clientes ejecutan junto a estos productos, no un reemplazo.

SLO publicados. Medidos en continuo.

Cifras principales abajo. La tabla completa — consultas de medición, datos históricos una vez se cierre la primera ventana de 30 días, y los cuatro SLO de apoyo — vive en /trust/slos.

Propagación de Managed Rule
P95 ≤ 30 s

Promoción firmada → cargada en el gateway. Objetivo publicado; primeras mediciones 30 días después del GA.

Disponibilidad del failover
99,99 %

El gateway carga un conjunto de reglas verificado a través de múltiples niveles de lectura independientes.

Frescura del rule-set
P99 ≤ 5 min

En operación normal. Page P0 a 24h de staleness.

La primera ventana de medición de 30 días se publica 30 días después del GA. No preanunciamos cifras que no podemos defender.

Ver los SLO publicados

Traiga sus herramientas.

El IoC feed es STIX 2.1 legible por máquina. La cadena de auditoría es verificable. El panel está abierto a cada cliente.

curl -s https://api.mnemom.ai/v1/trust/iocs | jq .
Featured on There's An AI For That