Mnemom AEGIS

Réseau défensif multi-tenant pour les agents IA.

Mnemom AEGIS — Adaptive Enforcement, Governance & Intelligence Substrate — est le réseau de sécurité runtime derrière la Safe House. Il filtre chaque transaction d’agent à quatre checkpoints — front door, back door, inside.autonomy, inside.integrity — chacun configurable indépendamment dans quatre modes d’enforcement. Les Managed Rules signées portent un objectif SLO de propagation multi-tenant P95 sous 30 secondes (premières mesures publiées 30 jours après le GA).

AAP déclare. AIP vérifie en vol. CLPI gouverne et ancre. Safe House filtre. AEGIS signe les défenses cross-tenant.

Tableau de bord client curl /v1/trust/iocs Contacter les ventes

Le modèle de menace.

Sept schémas d'attaque définissent aujourd'hui la surface de menace agentique. Chacun est mappé sur l'un des quatre checkpoints — afin que les clients règlent l'enforcement par surface, et non comme une posture globale unique.

Menace	Checkpoint	À quoi ça ressemble
Prompt injection	`front door`	Tentatives directes de remplacer les instructions de l'agent, d'inverser son rôle ou de contourner la portée déclarée à la surface entrante.
Injection indirecte	`front door`	Instructions cachées dissimulées dans les documents récupérés, les sorties d'outils et les charges utiles de vector store — le prompt que l'agent ne savait pas avoir reçu.
Mésusage d'outils	`inside.autonomy`	Appels d'outils coercés ou chaînés qui dépassent les bornes d'autonomie déclarées de l'agent ou violent la surface protégée de la Protection Card de l'organisation (opérations interdites, actifs protégés). Attaques sur la forme des arguments contre des schémas sous-validés (OWASP ASI02).
Exfiltration de données	`back door`	PII, PHI, secrets, identifiants ou données cross-tenant renvoyés dans les réponses de l'agent, les traces d'erreur ou des schémas de split-token.
Fraude BEC / usurpation d'identité	`front door`	Requêtes de type fraude au président, pression d'urgence et d'autorité, ingénierie sociale ciblant le contrat d'escalade de l'agent.
Usurpation d'agent	`inside.integrity`	Tentatives d'abus d'identité qui revendiquent une autorité que l'Alignment Card ne déclare pas. OWASP ASI03 — Identity & Privilege Abuse.
Compromission de la supply chain	`inside.integrity`	Signatures comportementales compatibles avec un SDK compromis, un fine-tune de modèle ou un template de prompt vendoré — détectées cross-tenant via le substrate fingerprinting (OWASP ASI04).

Quatre checkpoints × quatre modes d'enforcement.

Chaque checkpoint est configurable indépendamment. La composition suit le principe strictest-wins de Platform → Org → Team → Agent : le réglage le plus strict de n'importe quelle couche l'emporte toujours. Le fonctionnement est analogue à la façon dont Cloudflare WAF Managed Rules vous laissent définir severity × action par règle.

Mode →

off

observe

nudge

enforce

front door

Screening des messages entrants — chaque prompt, charge utile de retrieval et réponse d'outil avant que l'agent ne les traite.

back door

Screening des réponses sortantes — PII, secrets, violations d'Alignment Card, conseils réglementés avant que la réponse ne quitte le périmètre.

inside.autonomy

Screening des appels d'outils — chaque action que l'agent entreprend par rapport aux bornes d'autonomie déclarées par l'Alignment Card et à la surface protégée de la Protection Card de l'organisation (opérations interdites, actifs protégés).

inside.integrity

Screening de l'intégrité du raisonnement — verdicts AIP sur les charges utiles thinking-block ; signatures de déviation du substrate ; schémas d'abus d'identité.

off

Checkpoint désactivé. Utilisé dans les tenants canary et avant onboarding.

observe

Évalue chaque transaction ; émet des verdicts signés ; ne bloque jamais. Le défaut pour les nouvelles Managed Rules pendant le soak observe de 24 heures.

nudge

Annote ou avertit en ligne sans bloquer. Le terrain intermédiaire pour les règles tier-3 pendant la montée en charge.

enforce

Bloque la transaction et fait remonter un verdict signé vers le tableau de bord. Atteint uniquement après la période d'observation en observe et la discipline de rollback sur le taux de FP — confirmé par un opérateur aujourd'hui, automatique en Phase 2 de CLPI.

Cascade de composition : Platform → Org → Team → Agent, strictest-wins. Les admins client peuvent serrer à n'importe quelle couche.

Le pipeline Managed Rules.

Les recipes sont du contenu de détection. Les Managed Rules sont l'état signé du control-plane qui les enveloppe. Le pipeline est contraint structurellement — pas procéduralement — de sorte que les règles tier-1 et tier-2 ne peuvent pas auto-promouvoir, quel que soit le mode défini par l'opérateur.

1. Arena
Quinze personas adverses canoniques sondent Safe House 24/7. La mutation-phase gating s'active par bucket uniquement lorsque le taux de détection dépasse 95 % sur une fenêtre glissante de 48 heures avec hystérésis de 24 heures.
2. Candidate
Les candidats qui passent l'arène entrent dans une file de revue isolée dotée d'un chemin d'écriture strictement séparé, de sorte que le système qui propose le contenu de détection ne peut jamais être celui qui l'approuve. Les signalements de faux négatifs et de faux positifs des clients ainsi que les signaux réseau cross-tenant convergent tous vers la même file.
3. Review
Trois modes de relecture — manual (défaut), auto-approve-trusted-sources, auto-approve-high-confidence. Les tier-1 / tier-2 exigent toujours une relecture en dual-control sous une chaîne d'audit append-only.
4. Soak observe 24h
Chaque promotion signée arrive en mode observe pendant 24 heures. La surveillance du taux de FP retire la recette avant qu'aucun trafic de production ne soit bloqué — confirmé par un opérateur aujourd'hui, automatique en Phase 2 de CLPI.
5. Enforce
Le failover tiered KV+R2+isolate-cache avec chaînes de signature indépendantes pousse la règle vers chaque gateway. P95 ≤ 30 s entre promotion signée et chargement gateway.

L'invariant protecteur

Une Managed Rule de tier-1 ou tier-2 — celle qui bloquerait réellement du trafic de production — ne peut jamais être promue sans une revue humaine à deux personnes, quelle que soit l'agressivité du mode d'auto-promotion. La garantie est appliquée structurellement, dans le modèle de données lui-même : une règle active ne peut exister tant que son quorum de revue n'a pas été atteint. C'est une propriété du système, et non une procédure que quelqu'un doit penser à suivre.

Garanti par le modèle de données, et non par la discipline de l'opérateur.

Substrate fingerprinting + détection de supply chain.

Chaque évaluation est estampillée d'un substrate fingerprint — le fournisseur, le modèle et la version du SDK à l'origine de la requête, plus un lockfile hash facultatif fourni par le client et envoyé via l'en-tête `X-Mnemom-Lockfile-Hash`. AEGIS observe la déviation comportementale sur l'ensemble des clients exécutés sur le même substrate, simultanément.

Le 11 mai 2026 — le ver Mini Shai-Hulud a compromis plus de 170 paquets npm et 2 paquets PyPI, dont la suite SDK de Mistral AI et le paquet PyPI de Guardrails AI. Les versions compromises de `@tanstack/*` étaient livrées avec des attestations SLSA Build Level 3 valides — le premier cas documenté d'un ver produisant une provenance signée légitime pour des paquets malveillants. La détection par tenant et la vérification Sigstore au niveau du paquet ne peuvent structurellement pas attraper cette classe d'attaque.

Modèle de menace complet sur /supply-chain

OWASP Top 10 for Agentic Applications.

Mapping honnête face à la référence OWASP Top 10 pour les applications agentiques (OWASP Gen AI Security Project, publié le 09/12/2025). Là où la couverture est partielle ou absente, nous le disons — la taxonomie ASI complète est sur genai.owasp.org.

OWASP Top 10 pour les applications agentiques (genai.owasp.org)

Catégorie OWASP	Couverture	Comment AEGIS la traite
ASI02 — Tool Misuse	Partial	Moteur de politiques (CLPI Phase 1) avec application des actions bornées + Managed Rules à règles d'interdiction au point de contrôle inside.autonomy, plus un filtrage back-door de l'exfiltration de données via les outils. L'application du périmètre déclaré est le contrôle principal ; Mnemom n'intercepte pas chaque invocation d'outil non sûre au niveau de la passerelle.
ASI03 — Identity & Privilege Abuse	Full	Limites d'autonomie déclarées par AAP (Alignment Card) appliquées par le moteur de politiques CLPI + verdicts d'intégrité AIP en vol + filtrage au point de contrôle inside.integrity des revendications de privilège/abus d'identité à l'exécution.
ASI04 — Agentic Supply Chain Vulnerabilities	Full (runtime)	L'empreinte de substrat à chaque évaluation + l'agrégateur inter-locataires détectent les écarts de comportement à l'exécution cohérents avec une dépendance/un substrat compromis qu'aucun client seul ne peut voir. Complète — ne remplace pas — la provenance des paquets à la compilation (SLSA, Sigstore).
ASI07 — Insecure Inter-Agent Communication	Partial	Le point de contrôle back-door traite par conception comme suspectes les revendications d'autorité/d'identité non authentifiées arrivant en messages entrants à l'exécution. Cela filtre le contenu des messages inter-agents ; l'autorité légitime d'agent à agent doit être encodée dans les Alignment Cards. Ce n'est pas un schéma d'authentification de transport.

Les catégories restantes sont couvertes ailleurs dans la pile Mnemom, présentées honnêtement : ASI01 (Agent Goal Hijack) — filtrage front-door de Safe House, livré pour l'injection directe et couvrant largement le détournement d'objectif multi-tours (résiduel sur les séquences multi-tours/multi-vecteurs inédites) ; ASI09 (Human-Agent Trust Exploitation) — détection front-door livrée de la manipulation d'autorité/d'urgence/de secret ; ASI10 (Rogue Agents) — couvert à la couche de gouvernance (Alignment Cards AAP + cycle de vie CLPI + Trust Ratings), pas un motif front-door unique. Lacunes honnêtes : ASI05 (Unexpected Code Execution) et ASI06 (Memory & Context Poisoning) ne sont pas interceptés au front-door aujourd'hui (le moteur de politiques réduit la surface d'action ; AIP offre une observabilité partielle en aval — associez-le à un sandbox de couche applicative / traitez la mémoire comme une entrée non fiable), et ASI08 (Cascading Failures) relève de l'architecture applicative (timeouts, bulkheads, disjoncteurs). Voir /protection-network et /trust.

Cadre de gestion des risques liés à l'IA du NIST.

Comment les contrôles d'exécution livrés de Mnemom soutiennent les quatre fonctions du NIST AI RMF. Mapping honnête — Mnemom est un substrat de confiance à l'exécution, pas un programme de gestion des risques IA ; là où une fonction relève de la responsabilité organisationnelle du client, nous le disons.

NIST AI Risk Management Framework (AI RMF 1.0)

Fonction AI RMF	Couverture	Comment Mnemom la soutient
GOVERN	Partial	Alignment Card comme artefact de politique lisible par machine par agent (principal, supervision, périmètre d'autonomie) + gouvernance du cycle de vie CLPI + promotion des Managed Rules en double contrôle. Votre programme de gouvernance organisationnelle (rôles, autorité d'approbation, intégration de modèles tiers) reste le vôtre.
MAP	Partial	L'Alignment Card cadre l'objet + les limites déclarées d'autonomie/intégrité de chaque agent ; la classification de risque de l'EU AI Act + le mapping OWASP Agentic Top 10 cadrent le contexte de risque. Cadrage par agent livré ; le cadrage de l'ensemble du parc est celui du client.
MEASURE	Partial	Les points de contrôle + verdicts d'intégrité AIP (par décision), le Trust Rating (0–1000), les SLI publiés sur trust.mnemom.ai/slos, la télémétrie de faux positifs de Safe House et le substrate fingerprinting d'AEGIS. Mesure d'exécution en direct ; l'évaluation des modèles avant déploiement est complémentaire + exécutée par le client.
MANAGE	Partial	L'application des actions bornées du Policy Engine + Safe House observe/nudge/enforce traitent le risque détecté ; le CMS d'avis + le transparency log communiquent les incidents ; le failover d'AEGIS + le répondeur toujours actif gèrent réponse/récupération. L'allocation des ressources de risque + le processus IR de votre organisation restent les vôtres.

« Partiel » est honnête : l'AI RMF est un cadre volontaire et non certifiable, opéré par votre organisation. Mnemom fournit les contrôles d'exécution + les preuves vérifiables sur lesquelles chaque fonction peut s'appuyer ; il ne décharge pas vos responsabilités GOVERN et ne certifie pas la conformité. Mapping complet sur /guides/eu-compliance.

Comment AEGIS se compare.

Abrégé de la recherche sur le paysage concurrentiel du 23 mai 2026. AEGIS est la couche réseau ; les vendors ci-dessous sont complémentaires, pas des remplacements — voir /governance pour l'histoire d'intégration complète.

Capacité	Mnemom AEGIS	Cloudflare WAF	Lakera Guard	Cisco AI Defense	AWS Bedrock Guardrails	Google Model Armor
Managed Rules cross-tenant avec promotion signée	Oui — signées Ed25519, propagation P95 ≤ 30 s, chaîne d'audit publique	Managed Rules WAF (couche web, pas couche agent)	Threat-intel curée par le vendor ; aucun signal issu du réseau client	SDK embed au build-time ; pas de réseau cross-tenant runtime	AWS uniquement ; pas d'apprentissage cross-client	Filtre in-process ; pas de réseau
Modèle quatre-checkpoints × quatre-modes par agent	Oui — front door / back door / inside.autonomy / inside.integrity, chacun configurable indépendamment	Règles WAF par route ; pas façonnées pour la transaction agent	Détecteur unique au runtime	Intégration NeMo Guardrails ; policy au build-time	Bedrock Guardrails par politique (denylist, PII, contextual grounding)	Filtres prompt-injection + URL + contenu nuisible
Substrate fingerprinting (provider + model + version du SDK) sur chaque évaluation	Oui — détection cross-tenant de supply chain	Non	Non	Non	Non	Non
IoC feed public STIX 2.1 + advisories signés	Oui — /v1/trust/iocs (vide au GA par design)	Feeds Radar internes au client uniquement	Aucun feed public	Talos pour les menaces traditionnelles ; aucun IoC feed agent public	Non	Non
Invariant de dual-control sur tier-1/-2 (appliqué dans le modèle de données)	Oui — appliqué par le schéma, pas procédural	Change-management procédural	Contrôlé par le vendor	Contrôlé par le vendor	IAM de policy client	Contrôlé par le vendor

Sources : documentation publique des vendors, 23 mai 2026. AEGIS est une couche que les clients exécutent en parallèle de ces produits, pas un remplacement.

SLO publiés. Mesurés en continu.

Chiffres principaux ci-dessous. Le tableau complet — requêtes de mesure, données historiques une fois la première fenêtre de 30 jours close, et les quatre SLO de soutien — vit sur /trust/slos.

Propagation de Managed Rule

P95 ≤ 30 s

Promotion signée → chargée sur le gateway. Cible publiée ; premières mesures 30 jours après le GA.

Disponibilité du failover

99,99 %

Le gateway charge un jeu de règles vérifié à travers plusieurs niveaux de lecture indépendants.

Fraîcheur du rule-set

P99 ≤ 5 min

En fonctionnement normal. Page P0 à 24h de stale.

La première fenêtre de mesure de 30 jours est publiée 30 jours après le GA. Nous ne préannonçons pas de chiffres que nous ne pouvons pas défendre.

Voir les SLO publiés

Apportez vos outils.

L'IoC feed est en STIX 2.1 lisible par machine. La chaîne d'audit est vérifiable. Le tableau de bord est ouvert à chaque client.

curl -s https://api.mnemom.ai/v1/trust/iocs | jq .

Tableau de bord client curl /v1/trust/iocs Contacter les ventes