Mandantenübergreifendes Verteidigungsnetzwerk für KI-Agenten.
Mnemom AEGIS — Adaptive Enforcement, Governance & Intelligence Substrate — ist das Runtime-Sicherheitsnetzwerk hinter dem Safe House. Es prüft jede Agent-Transaktion an vier Checkpoints — front door, back door, inside.autonomy, inside.integrity — die jeweils unabhängig in vier Enforcement-Modi konfigurierbar sind. Signierte Managed Rules tragen ein mandantenübergreifendes P95-Propagations-SLO-Ziel unter 30 Sekunden (erste Messungen 30 Tage nach GA).
AAP deklariert. AIP verifiziert in flight. CLPI regiert und verankert. Safe House prüft. AEGIS signiert die Cross-Tenant-Abwehr.
Das Threat Model.
Sieben Angriffsmuster prägen heute die agentische Bedrohungsfläche. Jedes ist auf einen der vier Checkpoints abgebildet — damit Kunden Enforcement pro Surface einstellen, nicht als einzelne globale Haltung.
| Bedrohung | Checkpoint | Wie es aussieht |
|---|---|---|
| Prompt Injection | front door | Direkte Versuche, die Anweisungen des Agenten zu überschreiben, die Rolle zu tauschen oder den deklarierten Scope an der Inbound-Surface zu umgehen. |
| Indirekte Injection | front door | Versteckte Anweisungen in abgerufenen Dokumenten, Tool-Outputs und Vector-Store-Payloads — der Prompt, von dem der Agent nicht wusste, dass er ihn erhielt. |
| Tool Misuse | inside.autonomy | Erzwungene oder verkettete Tool-Calls, die den durch die Alignment Card erlaubten Scope überschreiten. Argument-Shape-Angriffe gegen unzureichend validierte Schemas (OWASP ASI02). |
| Datenexfiltration | back door | PII, PHI, Secrets, Credentials oder Cross-Tenant-Daten, die in Agent-Antworten, Fehler-Traces oder Split-Token-Mustern zurückgesendet werden. |
| BEC / Identitätsbetrug | front door | Anfragen im Stil von CEO-Fraud, Druck durch Dringlichkeit und Autorität, Social Engineering, das den Eskalationsvertrag des Agenten ins Visier nimmt. |
| Agent Spoofing | inside.integrity | Identitätsmissbrauchsversuche, die Autorität beanspruchen, die die Alignment Card nicht deklariert. OWASP ASI03 — Privilege Compromise via Identity Abuse. |
| Supply-Chain-Kompromittierung | inside.integrity | Verhaltenssignaturen, die mit einem kompromittierten SDK, Model-Fine-Tune oder vendored Prompt-Template übereinstimmen — Cross-Tenant erkannt via substrate fingerprinting (OWASP ASI06). |
Vier Checkpoints × vier Enforcement-Modi.
Jeder Checkpoint ist unabhängig konfigurierbar. Die Komposition folgt dem Prinzip strictest-wins über Platform → Org → Team → Agent: Die strengere Einstellung auf jeder Ebene setzt sich immer durch. Es funktioniert analog dazu, wie Cloudflare WAF Managed Rules severity × action pro Regel festlegen lassen.
front doorback doorinside.autonomyinside.integrityCheckpoint deaktiviert. Verwendet in Canary-Tenants und vor dem Onboarding.
Bewertet jede Transaktion; gibt signierte Verdicts aus; blockiert nie. Standard für neue Managed Rules während des 24-stündigen Observe-Soaks.
Annotiert oder warnt inline ohne zu blocken. Der Mittelweg für Tier-3-Regeln während des Hochfahrens.
Blockiert die Transaktion und meldet ein signiertes Verdict ans Dashboard. Wird erst nach dem Observe-Soak und der FP-Rate-Auto-Rollback-Disziplin (CLPI Phase 2) erreicht.
Kompositionskaskade: Platform → Org → Team → Agent, strictest-wins. Kundenadmins können auf jeder Ebene strenger klemmen.
Die Managed-Rules-Pipeline.
Recipes sind Detection-Content. Managed Rules sind der signierte Control-Plane-State, der sie umhüllt. Die Pipeline ist strukturell beschränkt — nicht prozedural — sodass Tier-1- und Tier-2-Regeln nicht auto-promoten können, unabhängig vom operatorseitig gesetzten Modus.
- 1. Arena
Fünfzehn kanonische adversarielle Personas sondieren Safe House rund um die Uhr. Mutation-phase gating aktiviert sich per Bucket nur, wenn die Detection-Rate über einem rollierenden 48-Stunden-Fenster 95 % überschreitet, mit 24-Stunden-Hysterese.
- 2. Candidate
Kandidaten, die an der Arena vorbeikommen, gelangen in eine isolierte Review-Queue mit einem strikt getrennten Schreibpfad, sodass das System, das Detection-Content vorschlägt, niemals dasselbe sein kann, das ihn freigibt. False-Negative- und False-Positive-Meldungen von Kunden sowie Cross-Tenant-Netzwerksignale fließen alle in dieselbe Queue.
- 3. Review
Drei Reviewer-Modi — manual (Standard), auto-approve-trusted-sources, auto-approve-high-confidence. Tier-1 / Tier-2 erfordern stets Dual-Control-Review unter einer Append-only-Audit-Chain.
- 4. 24h Observe-Soak
Jede signierte Promotion landet 24 Stunden lang im Observe-Modus. FP-Rate-Auto-Rollback nach CLPI Phase 2 zieht die Recipe zurück, bevor produktiver Traffic geblockt wird.
- 5. Enforce
Tiered KV+R2+isolate-cache-Failover mit unabhängigen Signaturketten pusht die Regel an jedes Gateway. P95 ≤ 30 s signed-promotion → gateway-loaded.
Die schützende Invariante
Eine Tier-1- oder Tier-2-Managed-Rule — eine, die tatsächlich realen Produktionstraffic blocken würde — kann niemals ohne Vier-Augen-Review durch Menschen promotet werden, egal wie aggressiv der Auto-Promotion-Modus eingestellt ist. Die Garantie wird strukturell durchgesetzt, im Datenmodell selbst: Eine aktive Regel kann nicht existieren, solange ihr Review-Quorum nicht erreicht ist. Es ist eine Eigenschaft des Systems, kein Verfahren, an das sich jemand erinnern muss.
Vom Datenmodell garantiert, nicht durch Operator-Disziplin.
Substrate fingerprinting + Supply-Chain-Detection.
Jede Evaluation wird mit einem substrate fingerprint gestempelt — dem Provider, Model und der SDK-Version hinter der Anfrage, plus einem optionalen, vom Kunden gelieferten lockfile hash, der über den Header `X-Mnemom-Lockfile-Hash` gesendet wird. AEGIS sieht verhaltensbasierte Abweichung über alle Kunden, die auf demselben Substrate laufen, gleichzeitig.
Am 11. Mai 2026 — der Mini-Shai-Hulud-Wurm kompromittierte mehr als 170 npm-Pakete und 2 PyPI-Pakete, darunter die SDK-Suite von Mistral AI und das PyPI-Paket von Guardrails AI. Die kompromittierten `@tanstack/*`-Versionen wurden mit gültigen SLSA-Build-Level-3-Attestierungen ausgeliefert — der erste dokumentierte Fall eines Wurms, der legitime signierte Provenance für bösartige Pakete produziert. Per-Tenant-Detection und Sigstore-Verifikation auf Paketebene können diese Angriffsklasse strukturell nicht erfassen.
OWASP Top 10 for Agentic Applications.
Ehrliches Mapping. Wo die Abdeckung partiell ist, sagen wir es. Die vollständige OWASP-ASI-Taxonomie (Dez. 2025) steht auf owasp.org.
| OWASP-Kategorie | Abdeckung | Wie AEGIS sie adressiert |
|---|---|---|
| ASI02 — Tool Misuse | Vollständig | Policy Engine (CLPI Phase 1) + Managed Rules am inside.autonomy-Checkpoint. Tool-Call-Screening gegen die von der Alignment Card deklarierten Autonomie-Grenzen. |
| ASI03 — Privilege Compromise via Identity Abuse | Vollständig | AAP-deklarierte Autonomie-Grenzen (Alignment Card) + AIP-In-flight-Integrity-Verdicts + inside.integrity-Checkpoint-Screening für Identity-Abuse-Muster. |
| ASI06 — Agentic Supply Chain Compromise | Vollständig (Runtime) | Substrate fingerprinting auf jeder Evaluation. Der Cross-Tenant-Aggregator erkennt verhaltensbasierte Abweichungen, die kein einzelner Kunde sehen kann. Ergänzt — ersetzt nicht — Provenance auf Paketebene (SLSA, Sigstore). |
| ASI07 — System Prompt Leakage | Partiell | Back-door-Checkpoint-Screening auf bekannte System-Prompt-Muster + Secrets und Alignment-Card-Verstöße. Detection ist contentbasiert; Agenten, die ihren System Prompt auf Userwunsch legitim zitieren, werden nicht unterdrückt. |
ASI01 (Prompt Injection), ASI04 (Resource Exhaustion), ASI05 (Cascading Hallucination), ASI08 (Repudiation & Untraceability), ASI09 (Identity Spoofing), ASI10 (Overreliance) sind auf andere Teile des Mnemom-Stacks abgebildet (AAP Cards, AIP-Verdicts, CLPI On-Chain-Anchoring, Trust Ratings) — abgedeckt auf /protection-network und /trust.
So vergleicht sich AEGIS.
Gekürzt aus der Competitive-Landscape-Recherche vom 23.05.2026. AEGIS ist die Netzwerkschicht; die unten genannten Anbieter sind komplementär, kein Ersatz — die vollständige Integrations-Story finden Sie unter /governance.
| Fähigkeit | Mnemom AEGIS | Cloudflare WAF | Lakera Guard | Cisco AI Defense | AWS Bedrock Guardrails | Google Model Armor |
|---|---|---|---|---|---|---|
| Cross-Tenant-Managed-Rules mit signierter Promotion | Ja — Ed25519-signiert, P95 ≤ 30 s Propagation, öffentliche Audit-Chain | WAF Managed Rules (Web-Layer, nicht Agent-Layer) | Vendor-kuratierte Threat-Intel; kein aus dem Kundennetzwerk gewonnenes Signal | Build-time-SDK-Embed; kein Runtime-Cross-Tenant-Netzwerk | Nur AWS; kein Cross-Customer-Learning | In-process-Filter; kein Netzwerk |
| Vier-Checkpoints-×-vier-Modi-Modell pro Agent | Ja — front door / back door / inside.autonomy / inside.integrity, jeder unabhängig konfigurierbar | Per-Route-WAF-Regeln; nicht auf Agent-Transaktion zugeschnitten | Einzeldetektor zur Runtime | NeMo-Guardrails-Integration; Build-time-Policy | Bedrock Guardrails pro Policy (Denylist, PII, contextual grounding) | Prompt-Injection- + URL- + Harmful-Content-Filter |
| Substrate fingerprinting (provider + model + SDK-Version) auf jeder Evaluation | Ja — Cross-Tenant-Supply-Chain-Detection | Nein | Nein | Nein | Nein | Nein |
| Öffentlicher STIX-2.1-IoC-Feed + signierte Advisories | Ja — /v1/trust/iocs (zum GA per Design leer) | Nur kundeninterne Radar-Feeds | Kein öffentlicher Feed | Talos für traditionelle Bedrohungen; kein öffentlicher Agent-IoC-Feed | Nein | Nein |
| Dual-Control-Invariante auf Tier-1/-2 (im Datenmodell durchgesetzt) | Ja — schemaerzwungen, nicht prozedural | Prozedurales Change-Management | Vendor-kontrolliert | Vendor-kontrolliert | Customer-Policy-IAM | Vendor-kontrolliert |
Quellen: öffentliche Vendor-Dokumentation, 23.05.2026. AEGIS ist eine Schicht, die Kunden parallel zu diesen Produkten betreiben, kein Ersatz.
SLOs veröffentlicht. Kontinuierlich gemessen.
Headline-Zahlen unten. Die vollständige Tabelle — Measurement-Queries, historische Daten, sobald das erste 30-Tage-Fenster schließt, und die vier unterstützenden SLOs — lebt auf /trust/slos.
Signierte Promotion → Gateway-geladen. Veröffentlichter Zielwert; erste Messungen 30 Tage nach GA.
Das Gateway lädt einen verifizierten Regelsatz über mehrere unabhängige Read-Tiers.
Im Normalbetrieb. P0-Page bei 24h Staleness.
Das erste 30-Tage-Messfenster wird 30 Tage nach GA veröffentlicht. Wir kündigen keine Zahlen an, die wir nicht verteidigen können.
Veröffentlichte SLOs ansehenBringen Sie Ihre Tools mit.
Der IoC-Feed ist maschinenlesbares STIX 2.1. Die Audit-Chain ist verifizierbar. Das Dashboard steht jedem Kunden offen.
curl -s https://api.mnemom.ai/v1/trust/iocs | jq .