Mnemom AEGIS

Mandantenübergreifendes Verteidigungsnetzwerk für KI-Agenten.

Mnemom AEGIS — Adaptive Enforcement, Governance & Intelligence Substrate — ist das Runtime-Sicherheitsnetzwerk hinter dem Safe House. Es prüft jede Agent-Transaktion an vier Checkpoints — front door, back door, inside.autonomy, inside.integrity — die jeweils unabhängig in vier Enforcement-Modi konfigurierbar sind. Signierte Managed Rules tragen ein mandantenübergreifendes P95-Propagations-SLO-Ziel unter 30 Sekunden (erste Messungen 30 Tage nach GA).

AAP deklariert. AIP verifiziert in flight. CLPI regiert und verankert. Safe House prüft. AEGIS signiert die Cross-Tenant-Abwehr.

Kunden-Dashboard curl /v1/trust/iocs Sales kontaktieren

Das Threat Model.

Sieben Angriffsmuster prägen heute die agentische Bedrohungsfläche. Jedes ist auf einen der vier Checkpoints abgebildet — damit Kunden Enforcement pro Surface einstellen, nicht als einzelne globale Haltung.

Bedrohung	Checkpoint	Wie es aussieht
Prompt Injection	`front door`	Direkte Versuche, die Anweisungen des Agenten zu überschreiben, die Rolle zu tauschen oder den deklarierten Scope an der Inbound-Surface zu umgehen.
Indirekte Injection	`front door`	Versteckte Anweisungen in abgerufenen Dokumenten, Tool-Outputs und Vector-Store-Payloads — der Prompt, von dem der Agent nicht wusste, dass er ihn erhielt.
Tool Misuse	`inside.autonomy`	Erzwungene oder verkettete Tool-Calls, die den deklarierten Autonomierahmen des Agenten überschreiten oder die geschützte Oberfläche der Org-Protection-Card verletzen (verbotene Operationen, geschützte Assets). Argument-Shape-Angriffe gegen unzureichend validierte Schemas (OWASP ASI02).
Datenexfiltration	`back door`	PII, PHI, Secrets, Credentials oder Cross-Tenant-Daten, die in Agent-Antworten, Fehler-Traces oder Split-Token-Mustern zurückgesendet werden.
BEC / Identitätsbetrug	`front door`	Anfragen im Stil von CEO-Fraud, Druck durch Dringlichkeit und Autorität, Social Engineering, das den Eskalationsvertrag des Agenten ins Visier nimmt.
Agent Spoofing	`inside.integrity`	Identitätsmissbrauchsversuche, die Autorität beanspruchen, die die Alignment Card nicht deklariert. OWASP ASI03 — Identity & Privilege Abuse.
Supply-Chain-Kompromittierung	`inside.integrity`	Verhaltenssignaturen, die mit einem kompromittierten SDK, Model-Fine-Tune oder vendored Prompt-Template übereinstimmen — Cross-Tenant erkannt via substrate fingerprinting (OWASP ASI04).

Vier Checkpoints × vier Enforcement-Modi.

Jeder Checkpoint ist unabhängig konfigurierbar. Die Komposition folgt dem Prinzip strictest-wins über Platform → Org → Team → Agent: Die strengere Einstellung auf jeder Ebene setzt sich immer durch. Es funktioniert analog dazu, wie Cloudflare WAF Managed Rules severity × action pro Regel festlegen lassen.

Modus →

off

observe

nudge

enforce

front door

Inbound-Message-Screening — jeder Prompt, jede Retrieval-Payload und jede Tool-Response, bevor der Agent sie verarbeitet.

back door

Outbound-Response-Screening — PII, Secrets, Alignment-Card-Verstöße, regulierte Beratung, bevor die Antwort den Perimeter verlässt.

inside.autonomy

Tool-Call-Screening — jede Aktion, die der Agent gegen die von der Alignment Card deklarierten Autonomie-Grenzen und die geschützte Oberfläche der Org-Protection-Card (verbotene Operationen, geschützte Assets) ausführt.

inside.integrity

Reasoning-Integrity-Screening — AIP-Verdicts zu Thinking-Block-Payloads; Substrate-Deviation-Signaturen; Identity-Abuse-Muster.

off

Checkpoint deaktiviert. Verwendet in Canary-Tenants und vor dem Onboarding.

observe

Bewertet jede Transaktion; gibt signierte Verdicts aus; blockiert nie. Standard für neue Managed Rules während des 24-stündigen Observe-Soaks.

nudge

Annotiert oder warnt inline ohne zu blocken. Der Mittelweg für Tier-3-Regeln während des Hochfahrens.

enforce

Blockiert die Transaktion und stellt dem Dashboard ein signiertes Verdikt zur Verfügung. Wird erst nach der observe-Einlaufphase und der FP-Rate-Rollback-Disziplin erreicht — heute durch einen Operator bestätigt, in CLPI Phase 2 automatisch.

Kompositionskaskade: Platform → Org → Team → Agent, strictest-wins. Kundenadmins können auf jeder Ebene strenger klemmen.

Die Managed-Rules-Pipeline.

Recipes sind Detection-Content. Managed Rules sind der signierte Control-Plane-State, der sie umhüllt. Die Pipeline ist strukturell beschränkt — nicht prozedural — sodass Tier-1- und Tier-2-Regeln nicht auto-promoten können, unabhängig vom operatorseitig gesetzten Modus.

1. Arena
Fünfzehn kanonische adversarielle Personas sondieren Safe House rund um die Uhr. Mutation-phase gating aktiviert sich per Bucket nur, wenn die Detection-Rate über einem rollierenden 48-Stunden-Fenster 95 % überschreitet, mit 24-Stunden-Hysterese.
2. Candidate
Kandidaten, die an der Arena vorbeikommen, gelangen in eine isolierte Review-Queue mit einem strikt getrennten Schreibpfad, sodass das System, das Detection-Content vorschlägt, niemals dasselbe sein kann, das ihn freigibt. False-Negative- und False-Positive-Meldungen von Kunden sowie Cross-Tenant-Netzwerksignale fließen alle in dieselbe Queue.
3. Review
Drei Reviewer-Modi — manual (Standard), auto-approve-trusted-sources, auto-approve-high-confidence. Tier-1 / Tier-2 erfordern stets Dual-Control-Review unter einer Append-only-Audit-Chain.
4. 24h Observe-Soak
Jede signierte Promotion landet für 24 Stunden im observe-Modus. Das FP-Rate-Monitoring zieht die recipe zurück, bevor jeglicher Produktionsverkehr blockiert wird — heute durch einen Operator bestätigt, in CLPI Phase 2 automatisch.
5. Enforce
Tiered KV+R2+isolate-cache-Failover mit unabhängigen Signaturketten pusht die Regel an jedes Gateway. P95 ≤ 30 s signed-promotion → gateway-loaded.

Die schützende Invariante

Eine Tier-1- oder Tier-2-Managed-Rule — eine, die tatsächlich realen Produktionstraffic blocken würde — kann niemals ohne Vier-Augen-Review durch Menschen promotet werden, egal wie aggressiv der Auto-Promotion-Modus eingestellt ist. Die Garantie wird strukturell durchgesetzt, im Datenmodell selbst: Eine aktive Regel kann nicht existieren, solange ihr Review-Quorum nicht erreicht ist. Es ist eine Eigenschaft des Systems, kein Verfahren, an das sich jemand erinnern muss.

Vom Datenmodell garantiert, nicht durch Operator-Disziplin.

Substrate fingerprinting + Supply-Chain-Detection.

Jede Evaluation wird mit einem substrate fingerprint gestempelt — dem Provider, Model und der SDK-Version hinter der Anfrage, plus einem optionalen, vom Kunden gelieferten lockfile hash, der über den Header `X-Mnemom-Lockfile-Hash` gesendet wird. AEGIS sieht verhaltensbasierte Abweichung über alle Kunden, die auf demselben Substrate laufen, gleichzeitig.

Am 11. Mai 2026 — der Mini-Shai-Hulud-Wurm kompromittierte mehr als 170 npm-Pakete und 2 PyPI-Pakete, darunter die SDK-Suite von Mistral AI und das PyPI-Paket von Guardrails AI. Die kompromittierten `@tanstack/*`-Versionen wurden mit gültigen SLSA-Build-Level-3-Attestierungen ausgeliefert — der erste dokumentierte Fall eines Wurms, der legitime signierte Provenance für bösartige Pakete produziert. Per-Tenant-Detection und Sigstore-Verifikation auf Paketebene können diese Angriffsklasse strukturell nicht erfassen.

Vollständiges Threat Model auf /supply-chain

OWASP Top 10 for Agentic Applications.

Ehrliches Mapping gegen die maßgebliche OWASP Top 10 für agentische Anwendungen (OWASP Gen AI Security Project, veröffentlicht am 09.12.2025). Wo die Abdeckung partiell oder nicht vorhanden ist, sagen wir es — die vollständige ASI-Taxonomie finden Sie unter genai.owasp.org.

OWASP Top 10 für agentische Anwendungen (genai.owasp.org)

OWASP-Kategorie	Abdeckung	Wie AEGIS sie adressiert
ASI02 — Tool Misuse	Partial	Policy-Engine (CLPI Phase 1) zur Durchsetzung gebundener Aktionen + Managed Rules mit Verbotsregeln am inside.autonomy-Checkpoint, plus Back-Door-Screening auf Datenexfiltration über Tools. Die Durchsetzung des deklarierten Geltungsbereichs ist die primäre Kontrolle; Mnemom fängt nicht jeden unsicheren Tool-Aufruf am Gateway ab.
ASI03 — Identity & Privilege Abuse	Full	Über AAP deklarierte Autonomiegrenzen (Alignment Card), durchgesetzt von der CLPI-Policy-Engine + AIP-Integritätsverdikte zur Laufzeit + inside.integrity-Checkpoint-Screening von Laufzeit-Ansprüchen auf Berechtigungs-/Identitätsmissbrauch.
ASI04 — Agentic Supply Chain Vulnerabilities	Full (runtime)	Substrat-Fingerprinting bei jeder Auswertung + der mandantenübergreifende Aggregator erkennen Abweichungen im Laufzeitverhalten, die auf eine kompromittierte Abhängigkeit/ein kompromittiertes Substrat hindeuten und die kein einzelner Kunde sehen kann. Ergänzt — ersetzt nicht — die Paket-Provenienz zur Build-Zeit (SLSA, Sigstore).
ASI07 — Insecure Inter-Agent Communication	Partial	Der Back-Door-Checkpoint behandelt nicht authentifizierte Autoritäts-/Identitätsansprüche, die als eingehende Laufzeitnachrichten ankommen, grundsätzlich als verdächtig. Dies prüft den Inhalt der Inter-Agenten-Nachrichten; legitime Agent-zu-Agent-Autorität muss in Alignment Cards kodiert sein. Es ist kein Transport-Authentifizierungsschema.

Die übrigen Kategorien werden an anderer Stelle im Mnemom-Stack abgedeckt, ehrlich dargestellt: ASI01 (Agent Goal Hijack) — Safe-House-Front-Door-Screening, ausgeliefert für direkte Injection und weitgehend gegen mehrstufige Zielmanipulation (Restrisiko bei neuartigen mehrstufigen/mehrvektoriellen Sequenzen); ASI09 (Human-Agent Trust Exploitation) — ausgelieferte Front-Door-Erkennung von Autoritäts-/Dringlichkeits-/Geheimhaltungsmanipulation; ASI10 (Rogue Agents) — auf Governance-Ebene abgedeckt (AAP Alignment Cards + CLPI-Lifecycle + Trust Ratings), kein einzelnes Front-Door-Muster. Ehrliche Lücken: ASI05 (Unexpected Code Execution) und ASI06 (Memory & Context Poisoning) werden heute nicht am Front Door abgefangen (die Policy-Engine reduziert die Angriffsfläche; AIP bietet partielle nachgelagerte Beobachtbarkeit — kombinieren Sie sie mit einer App-Layer-Sandbox / behandeln Sie Speicher als nicht vertrauenswürdige Eingabe), und ASI08 (Cascading Failures) ist ein Belang der Anwendungsarchitektur (Timeouts, Bulkheads, Circuit Breaker). Siehe /protection-network und /trust.

NIST AI Risk Management Framework.

Wie Mnemoms ausgelieferte Laufzeitkontrollen die vier NIST-AI-RMF-Funktionen unterstützen. Ehrliches Mapping — Mnemom ist ein Laufzeit-Trust-Substrat, kein KI-Risikomanagement-Programm; wo eine Funktion in der organisatorischen Verantwortung des Kunden liegt, sagen wir es.

NIST AI Risk Management Framework (AI RMF 1.0)

AI-RMF-Funktion	Abdeckung	Wie Mnemom sie unterstützt
GOVERN	Partial	Alignment Card als maschinenlesbares Policy-Artefakt pro Agent (Principal, Aufsicht, Autonomiegrenzen) + CLPI-Lifecycle-Governance + Managed-Rules-Promotion mit Dual Control. Ihr organisatorisches Governance-Programm (Rollen, Genehmigungsbefugnis, Drittmodell-Aufnahme) bleibt bei Ihnen.
MAP	Partial	Die Alignment Card rahmt Zweck + deklarierte Autonomie-/Integritätsgrenzen jedes Agenten; die EU-AI-Act-Risikoklassifizierung + das OWASP-Agentic-Top-10-Mapping rahmen den Risikokontext. Pro-Agent-Rahmung ausgeliefert; die Rahmung des gesamten Bestands ist Sache des Kunden.
MEASURE	Partial	AIP-Integritäts-Checkpoints + Verdikte (pro Entscheidung), das Trust Rating (0–1000), die veröffentlichten SLIs auf trust.mnemom.ai/slos, Safe-House-False-Positive-Telemetrie und AEGIS-Substrate-Fingerprinting. Live-Laufzeitmessung; die Modellbewertung vor dem Deployment ist ergänzend + kundenseitig.
MANAGE	Partial	Policy-Engine-Durchsetzung gebundener Aktionen + Safe House observe/nudge/enforce behandeln erkanntes Risiko; das Advisory-CMS + der Transparency Log kommunizieren Vorfälle; AEGIS-Failover + der Always-on-Responder übernehmen Reaktion/Wiederherstellung. Die Risikoressourcen-Zuteilung + der IR-Prozess Ihrer Organisation bleiben bei Ihnen.

„Partiell“ ist ehrlich: Das AI RMF ist ein freiwilliges, nicht zertifizierbares Framework, das Ihre Organisation betreibt. Mnemom liefert die Laufzeitkontrollen + verifizierbaren Nachweise, auf die jede Funktion zurückgreifen kann; es entbindet nicht von Ihren GOVERN-Pflichten und zertifiziert keine Konformität. Vollständiges Mapping unter /guides/eu-compliance.

So vergleicht sich AEGIS.

Gekürzt aus der Competitive-Landscape-Recherche vom 23.05.2026. AEGIS ist die Netzwerkschicht; die unten genannten Anbieter sind komplementär, kein Ersatz — die vollständige Integrations-Story finden Sie unter /governance.

Fähigkeit	Mnemom AEGIS	Cloudflare WAF	Lakera Guard	Cisco AI Defense	AWS Bedrock Guardrails	Google Model Armor
Cross-Tenant-Managed-Rules mit signierter Promotion	Ja — Ed25519-signiert, P95 ≤ 30 s Propagation, öffentliche Audit-Chain	WAF Managed Rules (Web-Layer, nicht Agent-Layer)	Vendor-kuratierte Threat-Intel; kein aus dem Kundennetzwerk gewonnenes Signal	Build-time-SDK-Embed; kein Runtime-Cross-Tenant-Netzwerk	Nur AWS; kein Cross-Customer-Learning	In-process-Filter; kein Netzwerk
Vier-Checkpoints-×-vier-Modi-Modell pro Agent	Ja — front door / back door / inside.autonomy / inside.integrity, jeder unabhängig konfigurierbar	Per-Route-WAF-Regeln; nicht auf Agent-Transaktion zugeschnitten	Einzeldetektor zur Runtime	NeMo-Guardrails-Integration; Build-time-Policy	Bedrock Guardrails pro Policy (Denylist, PII, contextual grounding)	Prompt-Injection- + URL- + Harmful-Content-Filter
Substrate fingerprinting (provider + model + SDK-Version) auf jeder Evaluation	Ja — Cross-Tenant-Supply-Chain-Detection	Nein	Nein	Nein	Nein	Nein
Öffentlicher STIX-2.1-IoC-Feed + signierte Advisories	Ja — /v1/trust/iocs (zum GA per Design leer)	Nur kundeninterne Radar-Feeds	Kein öffentlicher Feed	Talos für traditionelle Bedrohungen; kein öffentlicher Agent-IoC-Feed	Nein	Nein
Dual-Control-Invariante auf Tier-1/-2 (im Datenmodell durchgesetzt)	Ja — schemaerzwungen, nicht prozedural	Prozedurales Change-Management	Vendor-kontrolliert	Vendor-kontrolliert	Customer-Policy-IAM	Vendor-kontrolliert

Quellen: öffentliche Vendor-Dokumentation, 23.05.2026. AEGIS ist eine Schicht, die Kunden parallel zu diesen Produkten betreiben, kein Ersatz.

SLOs veröffentlicht. Kontinuierlich gemessen.

Headline-Zahlen unten. Die vollständige Tabelle — Measurement-Queries, historische Daten, sobald das erste 30-Tage-Fenster schließt, und die vier unterstützenden SLOs — lebt auf /trust/slos.

Managed-Rule-Propagation

P95 ≤ 30 s

Signierte Promotion → Gateway-geladen. Veröffentlichter Zielwert; erste Messungen 30 Tage nach GA.

Failover-Verfügbarkeit

99,99 %

Das Gateway lädt einen verifizierten Regelsatz über mehrere unabhängige Read-Tiers.

Rule-Set-Frische

P99 ≤ 5 min

Im Normalbetrieb. P0-Page bei 24h Staleness.

Das erste 30-Tage-Messfenster wird 30 Tage nach GA veröffentlicht. Wir kündigen keine Zahlen an, die wir nicht verteidigen können.

Veröffentlichte SLOs ansehen

Bringen Sie Ihre Tools mit.

Der IoC-Feed ist maschinenlesbares STIX 2.1. Die Audit-Chain ist verifizierbar. Das Dashboard steht jedem Kunden offen.

curl -s https://api.mnemom.ai/v1/trust/iocs | jq .

Kunden-Dashboard curl /v1/trust/iocs Sales kontaktieren