Mnemom AEGIS

Mandantenübergreifendes Verteidigungsnetzwerk für KI-Agenten.

Mnemom AEGIS — Adaptive Enforcement, Governance & Intelligence Substrate — ist das Runtime-Sicherheitsnetzwerk hinter dem Safe House. Es prüft jede Agent-Transaktion an vier Checkpoints — front door, back door, inside.autonomy, inside.integrity — die jeweils unabhängig in vier Enforcement-Modi konfigurierbar sind. Signierte Managed Rules tragen ein mandantenübergreifendes P95-Propagations-SLO-Ziel unter 30 Sekunden (erste Messungen 30 Tage nach GA).

AAP deklariert. AIP verifiziert in flight. CLPI regiert und verankert. Safe House prüft. AEGIS signiert die Cross-Tenant-Abwehr.

Kunden-Dashboard curl /v1/trust/iocs Sales kontaktieren

Das Threat Model.

Sieben Angriffsmuster prägen heute die agentische Bedrohungsfläche. Jedes ist auf einen der vier Checkpoints abgebildet — damit Kunden Enforcement pro Surface einstellen, nicht als einzelne globale Haltung.

Bedrohung	Checkpoint	Wie es aussieht
Prompt Injection	`front door`	Direkte Versuche, die Anweisungen des Agenten zu überschreiben, die Rolle zu tauschen oder den deklarierten Scope an der Inbound-Surface zu umgehen.
Indirekte Injection	`front door`	Versteckte Anweisungen in abgerufenen Dokumenten, Tool-Outputs und Vector-Store-Payloads — der Prompt, von dem der Agent nicht wusste, dass er ihn erhielt.
Tool Misuse	`inside.autonomy`	Erzwungene oder verkettete Tool-Calls, die den durch die Alignment Card erlaubten Scope überschreiten. Argument-Shape-Angriffe gegen unzureichend validierte Schemas (OWASP ASI02).
Datenexfiltration	`back door`	PII, PHI, Secrets, Credentials oder Cross-Tenant-Daten, die in Agent-Antworten, Fehler-Traces oder Split-Token-Mustern zurückgesendet werden.
BEC / Identitätsbetrug	`front door`	Anfragen im Stil von CEO-Fraud, Druck durch Dringlichkeit und Autorität, Social Engineering, das den Eskalationsvertrag des Agenten ins Visier nimmt.
Agent Spoofing	`inside.integrity`	Identitätsmissbrauchsversuche, die Autorität beanspruchen, die die Alignment Card nicht deklariert. OWASP ASI03 — Privilege Compromise via Identity Abuse.
Supply-Chain-Kompromittierung	`inside.integrity`	Verhaltenssignaturen, die mit einem kompromittierten SDK, Model-Fine-Tune oder vendored Prompt-Template übereinstimmen — Cross-Tenant erkannt via substrate fingerprinting (OWASP ASI06).

Vier Checkpoints × vier Enforcement-Modi.

Jeder Checkpoint ist unabhängig konfigurierbar. Die Komposition folgt dem Prinzip strictest-wins über Platform → Org → Team → Agent: Die strengere Einstellung auf jeder Ebene setzt sich immer durch. Es funktioniert analog dazu, wie Cloudflare WAF Managed Rules severity × action pro Regel festlegen lassen.

Modus →

off

observe

nudge

enforce

front door

Inbound-Message-Screening — jeder Prompt, jede Retrieval-Payload und jede Tool-Response, bevor der Agent sie verarbeitet.

back door

Outbound-Response-Screening — PII, Secrets, Alignment-Card-Verstöße, regulierte Beratung, bevor die Antwort den Perimeter verlässt.

inside.autonomy

Tool-Call-Screening — jede Aktion, die der Agent gegen die von der Alignment Card deklarierten Autonomie-Grenzen ausführt.

inside.integrity

Reasoning-Integrity-Screening — AIP-Verdicts zu Thinking-Block-Payloads; Substrate-Deviation-Signaturen; Identity-Abuse-Muster.

off

Checkpoint deaktiviert. Verwendet in Canary-Tenants und vor dem Onboarding.

observe

Bewertet jede Transaktion; gibt signierte Verdicts aus; blockiert nie. Standard für neue Managed Rules während des 24-stündigen Observe-Soaks.

nudge

Annotiert oder warnt inline ohne zu blocken. Der Mittelweg für Tier-3-Regeln während des Hochfahrens.

enforce

Blockiert die Transaktion und meldet ein signiertes Verdict ans Dashboard. Wird erst nach dem Observe-Soak und der FP-Rate-Auto-Rollback-Disziplin (CLPI Phase 2) erreicht.

Kompositionskaskade: Platform → Org → Team → Agent, strictest-wins. Kundenadmins können auf jeder Ebene strenger klemmen.

Die Managed-Rules-Pipeline.

Recipes sind Detection-Content. Managed Rules sind der signierte Control-Plane-State, der sie umhüllt. Die Pipeline ist strukturell beschränkt — nicht prozedural — sodass Tier-1- und Tier-2-Regeln nicht auto-promoten können, unabhängig vom operatorseitig gesetzten Modus.

1. Arena
Fünfzehn kanonische adversarielle Personas sondieren Safe House rund um die Uhr. Mutation-phase gating aktiviert sich per Bucket nur, wenn die Detection-Rate über einem rollierenden 48-Stunden-Fenster 95 % überschreitet, mit 24-Stunden-Hysterese.
2. Candidate
Kandidaten, die an der Arena vorbeikommen, gelangen in eine isolierte Review-Queue mit einem strikt getrennten Schreibpfad, sodass das System, das Detection-Content vorschlägt, niemals dasselbe sein kann, das ihn freigibt. False-Negative- und False-Positive-Meldungen von Kunden sowie Cross-Tenant-Netzwerksignale fließen alle in dieselbe Queue.
3. Review
Drei Reviewer-Modi — manual (Standard), auto-approve-trusted-sources, auto-approve-high-confidence. Tier-1 / Tier-2 erfordern stets Dual-Control-Review unter einer Append-only-Audit-Chain.
4. 24h Observe-Soak
Jede signierte Promotion landet 24 Stunden lang im Observe-Modus. FP-Rate-Auto-Rollback nach CLPI Phase 2 zieht die Recipe zurück, bevor produktiver Traffic geblockt wird.
5. Enforce
Tiered KV+R2+isolate-cache-Failover mit unabhängigen Signaturketten pusht die Regel an jedes Gateway. P95 ≤ 30 s signed-promotion → gateway-loaded.

Die schützende Invariante

Eine Tier-1- oder Tier-2-Managed-Rule — eine, die tatsächlich realen Produktionstraffic blocken würde — kann niemals ohne Vier-Augen-Review durch Menschen promotet werden, egal wie aggressiv der Auto-Promotion-Modus eingestellt ist. Die Garantie wird strukturell durchgesetzt, im Datenmodell selbst: Eine aktive Regel kann nicht existieren, solange ihr Review-Quorum nicht erreicht ist. Es ist eine Eigenschaft des Systems, kein Verfahren, an das sich jemand erinnern muss.

Vom Datenmodell garantiert, nicht durch Operator-Disziplin.

Substrate fingerprinting + Supply-Chain-Detection.

Jede Evaluation wird mit einem substrate fingerprint gestempelt — dem Provider, Model und der SDK-Version hinter der Anfrage, plus einem optionalen, vom Kunden gelieferten lockfile hash, der über den Header `X-Mnemom-Lockfile-Hash` gesendet wird. AEGIS sieht verhaltensbasierte Abweichung über alle Kunden, die auf demselben Substrate laufen, gleichzeitig.

Am 11. Mai 2026 — der Mini-Shai-Hulud-Wurm kompromittierte mehr als 170 npm-Pakete und 2 PyPI-Pakete, darunter die SDK-Suite von Mistral AI und das PyPI-Paket von Guardrails AI. Die kompromittierten `@tanstack/*`-Versionen wurden mit gültigen SLSA-Build-Level-3-Attestierungen ausgeliefert — der erste dokumentierte Fall eines Wurms, der legitime signierte Provenance für bösartige Pakete produziert. Per-Tenant-Detection und Sigstore-Verifikation auf Paketebene können diese Angriffsklasse strukturell nicht erfassen.

Vollständiges Threat Model auf /supply-chain

OWASP Top 10 for Agentic Applications.

Ehrliches Mapping. Wo die Abdeckung partiell ist, sagen wir es. Die vollständige OWASP-ASI-Taxonomie (Dez. 2025) steht auf owasp.org.

OWASP-Kategorie	Abdeckung	Wie AEGIS sie adressiert
ASI02 — Tool Misuse	Vollständig	Policy Engine (CLPI Phase 1) + Managed Rules am inside.autonomy-Checkpoint. Tool-Call-Screening gegen die von der Alignment Card deklarierten Autonomie-Grenzen.
ASI03 — Privilege Compromise via Identity Abuse	Vollständig	AAP-deklarierte Autonomie-Grenzen (Alignment Card) + AIP-In-flight-Integrity-Verdicts + inside.integrity-Checkpoint-Screening für Identity-Abuse-Muster.
ASI06 — Agentic Supply Chain Compromise	Vollständig (Runtime)	Substrate fingerprinting auf jeder Evaluation. Der Cross-Tenant-Aggregator erkennt verhaltensbasierte Abweichungen, die kein einzelner Kunde sehen kann. Ergänzt — ersetzt nicht — Provenance auf Paketebene (SLSA, Sigstore).
ASI07 — System Prompt Leakage	Partiell	Back-door-Checkpoint-Screening auf bekannte System-Prompt-Muster + Secrets und Alignment-Card-Verstöße. Detection ist contentbasiert; Agenten, die ihren System Prompt auf Userwunsch legitim zitieren, werden nicht unterdrückt.

ASI01 (Prompt Injection), ASI04 (Resource Exhaustion), ASI05 (Cascading Hallucination), ASI08 (Repudiation & Untraceability), ASI09 (Identity Spoofing), ASI10 (Overreliance) sind auf andere Teile des Mnemom-Stacks abgebildet (AAP Cards, AIP-Verdicts, CLPI On-Chain-Anchoring, Trust Ratings) — abgedeckt auf /protection-network und /trust.

So vergleicht sich AEGIS.

Gekürzt aus der Competitive-Landscape-Recherche vom 23.05.2026. AEGIS ist die Netzwerkschicht; die unten genannten Anbieter sind komplementär, kein Ersatz — die vollständige Integrations-Story finden Sie unter /governance.

Fähigkeit	Mnemom AEGIS	Cloudflare WAF	Lakera Guard	Cisco AI Defense	AWS Bedrock Guardrails	Google Model Armor
Cross-Tenant-Managed-Rules mit signierter Promotion	Ja — Ed25519-signiert, P95 ≤ 30 s Propagation, öffentliche Audit-Chain	WAF Managed Rules (Web-Layer, nicht Agent-Layer)	Vendor-kuratierte Threat-Intel; kein aus dem Kundennetzwerk gewonnenes Signal	Build-time-SDK-Embed; kein Runtime-Cross-Tenant-Netzwerk	Nur AWS; kein Cross-Customer-Learning	In-process-Filter; kein Netzwerk
Vier-Checkpoints-×-vier-Modi-Modell pro Agent	Ja — front door / back door / inside.autonomy / inside.integrity, jeder unabhängig konfigurierbar	Per-Route-WAF-Regeln; nicht auf Agent-Transaktion zugeschnitten	Einzeldetektor zur Runtime	NeMo-Guardrails-Integration; Build-time-Policy	Bedrock Guardrails pro Policy (Denylist, PII, contextual grounding)	Prompt-Injection- + URL- + Harmful-Content-Filter
Substrate fingerprinting (provider + model + SDK-Version) auf jeder Evaluation	Ja — Cross-Tenant-Supply-Chain-Detection	Nein	Nein	Nein	Nein	Nein
Öffentlicher STIX-2.1-IoC-Feed + signierte Advisories	Ja — /v1/trust/iocs (zum GA per Design leer)	Nur kundeninterne Radar-Feeds	Kein öffentlicher Feed	Talos für traditionelle Bedrohungen; kein öffentlicher Agent-IoC-Feed	Nein	Nein
Dual-Control-Invariante auf Tier-1/-2 (im Datenmodell durchgesetzt)	Ja — schemaerzwungen, nicht prozedural	Prozedurales Change-Management	Vendor-kontrolliert	Vendor-kontrolliert	Customer-Policy-IAM	Vendor-kontrolliert

Quellen: öffentliche Vendor-Dokumentation, 23.05.2026. AEGIS ist eine Schicht, die Kunden parallel zu diesen Produkten betreiben, kein Ersatz.

SLOs veröffentlicht. Kontinuierlich gemessen.

Headline-Zahlen unten. Die vollständige Tabelle — Measurement-Queries, historische Daten, sobald das erste 30-Tage-Fenster schließt, und die vier unterstützenden SLOs — lebt auf /trust/slos.

Managed-Rule-Propagation

P95 ≤ 30 s

Signierte Promotion → Gateway-geladen. Veröffentlichter Zielwert; erste Messungen 30 Tage nach GA.

Failover-Verfügbarkeit

99,99 %

Das Gateway lädt einen verifizierten Regelsatz über mehrere unabhängige Read-Tiers.

Rule-Set-Frische

P99 ≤ 5 min

Im Normalbetrieb. P0-Page bei 24h Staleness.

Das erste 30-Tage-Messfenster wird 30 Tage nach GA veröffentlicht. Wir kündigen keine Zahlen an, die wir nicht verteidigen können.

Veröffentlichte SLOs ansehen

Bringen Sie Ihre Tools mit.

Der IoC-Feed ist maschinenlesbares STIX 2.1. Die Audit-Chain ist verifizierbar. Das Dashboard steht jedem Kunden offen.

curl -s https://api.mnemom.ai/v1/trust/iocs | jq .

Kunden-Dashboard curl /v1/trust/iocs Sales kontaktieren