Mnemom AEGIS

Mandantenübergreifendes Verteidigungsnetzwerk für KI-Agenten.

Mnemom AEGIS — Adaptive Enforcement, Governance & Intelligence Substrate — ist das Runtime-Sicherheitsnetzwerk hinter dem Safe House. Es prüft jede Agent-Transaktion an vier Checkpoints — front door, back door, inside.autonomy, inside.integrity — die jeweils unabhängig in vier Enforcement-Modi konfigurierbar sind. Signierte Managed Rules tragen ein mandantenübergreifendes P95-Propagations-SLO-Ziel unter 30 Sekunden (erste Messungen 30 Tage nach GA).

AAP deklariert. AIP verifiziert in flight. CLPI regiert und verankert. Safe House prüft. AEGIS signiert die Cross-Tenant-Abwehr.

Das Threat Model.

Sieben Angriffsmuster prägen heute die agentische Bedrohungsfläche. Jedes ist auf einen der vier Checkpoints abgebildet — damit Kunden Enforcement pro Surface einstellen, nicht als einzelne globale Haltung.

BedrohungCheckpointWie es aussieht
Prompt Injectionfront doorDirekte Versuche, die Anweisungen des Agenten zu überschreiben, die Rolle zu tauschen oder den deklarierten Scope an der Inbound-Surface zu umgehen.
Indirekte Injectionfront doorVersteckte Anweisungen in abgerufenen Dokumenten, Tool-Outputs und Vector-Store-Payloads — der Prompt, von dem der Agent nicht wusste, dass er ihn erhielt.
Tool Misuseinside.autonomyErzwungene oder verkettete Tool-Calls, die den durch die Alignment Card erlaubten Scope überschreiten. Argument-Shape-Angriffe gegen unzureichend validierte Schemas (OWASP ASI02).
Datenexfiltrationback doorPII, PHI, Secrets, Credentials oder Cross-Tenant-Daten, die in Agent-Antworten, Fehler-Traces oder Split-Token-Mustern zurückgesendet werden.
BEC / Identitätsbetrugfront doorAnfragen im Stil von CEO-Fraud, Druck durch Dringlichkeit und Autorität, Social Engineering, das den Eskalationsvertrag des Agenten ins Visier nimmt.
Agent Spoofinginside.integrityIdentitätsmissbrauchsversuche, die Autorität beanspruchen, die die Alignment Card nicht deklariert. OWASP ASI03 — Privilege Compromise via Identity Abuse.
Supply-Chain-Kompromittierunginside.integrityVerhaltenssignaturen, die mit einem kompromittierten SDK, Model-Fine-Tune oder vendored Prompt-Template übereinstimmen — Cross-Tenant erkannt via substrate fingerprinting (OWASP ASI06).

Vier Checkpoints × vier Enforcement-Modi.

Jeder Checkpoint ist unabhängig konfigurierbar. Die Komposition folgt dem Prinzip strictest-wins über Platform → Org → Team → Agent: Die strengere Einstellung auf jeder Ebene setzt sich immer durch. Es funktioniert analog dazu, wie Cloudflare WAF Managed Rules severity × action pro Regel festlegen lassen.

Modus
off
observe
nudge
enforce
front door
Inbound-Message-Screening — jeder Prompt, jede Retrieval-Payload und jede Tool-Response, bevor der Agent sie verarbeitet.
back door
Outbound-Response-Screening — PII, Secrets, Alignment-Card-Verstöße, regulierte Beratung, bevor die Antwort den Perimeter verlässt.
inside.autonomy
Tool-Call-Screening — jede Aktion, die der Agent gegen die von der Alignment Card deklarierten Autonomie-Grenzen ausführt.
inside.integrity
Reasoning-Integrity-Screening — AIP-Verdicts zu Thinking-Block-Payloads; Substrate-Deviation-Signaturen; Identity-Abuse-Muster.
off

Checkpoint deaktiviert. Verwendet in Canary-Tenants und vor dem Onboarding.

observe

Bewertet jede Transaktion; gibt signierte Verdicts aus; blockiert nie. Standard für neue Managed Rules während des 24-stündigen Observe-Soaks.

nudge

Annotiert oder warnt inline ohne zu blocken. Der Mittelweg für Tier-3-Regeln während des Hochfahrens.

enforce

Blockiert die Transaktion und meldet ein signiertes Verdict ans Dashboard. Wird erst nach dem Observe-Soak und der FP-Rate-Auto-Rollback-Disziplin (CLPI Phase 2) erreicht.

Kompositionskaskade: Platform → Org → Team → Agent, strictest-wins. Kundenadmins können auf jeder Ebene strenger klemmen.

Die Managed-Rules-Pipeline.

Recipes sind Detection-Content. Managed Rules sind der signierte Control-Plane-State, der sie umhüllt. Die Pipeline ist strukturell beschränkt — nicht prozedural — sodass Tier-1- und Tier-2-Regeln nicht auto-promoten können, unabhängig vom operatorseitig gesetzten Modus.

  1. 1. Arena

    Fünfzehn kanonische adversarielle Personas sondieren Safe House rund um die Uhr. Mutation-phase gating aktiviert sich per Bucket nur, wenn die Detection-Rate über einem rollierenden 48-Stunden-Fenster 95 % überschreitet, mit 24-Stunden-Hysterese.

  2. 2. Candidate

    Kandidaten, die an der Arena vorbeikommen, gelangen in eine isolierte Review-Queue mit einem strikt getrennten Schreibpfad, sodass das System, das Detection-Content vorschlägt, niemals dasselbe sein kann, das ihn freigibt. False-Negative- und False-Positive-Meldungen von Kunden sowie Cross-Tenant-Netzwerksignale fließen alle in dieselbe Queue.

  3. 3. Review

    Drei Reviewer-Modi — manual (Standard), auto-approve-trusted-sources, auto-approve-high-confidence. Tier-1 / Tier-2 erfordern stets Dual-Control-Review unter einer Append-only-Audit-Chain.

  4. 4. 24h Observe-Soak

    Jede signierte Promotion landet 24 Stunden lang im Observe-Modus. FP-Rate-Auto-Rollback nach CLPI Phase 2 zieht die Recipe zurück, bevor produktiver Traffic geblockt wird.

  5. 5. Enforce

    Tiered KV+R2+isolate-cache-Failover mit unabhängigen Signaturketten pusht die Regel an jedes Gateway. P95 ≤ 30 s signed-promotion → gateway-loaded.

Die schützende Invariante

Eine Tier-1- oder Tier-2-Managed-Rule — eine, die tatsächlich realen Produktionstraffic blocken würde — kann niemals ohne Vier-Augen-Review durch Menschen promotet werden, egal wie aggressiv der Auto-Promotion-Modus eingestellt ist. Die Garantie wird strukturell durchgesetzt, im Datenmodell selbst: Eine aktive Regel kann nicht existieren, solange ihr Review-Quorum nicht erreicht ist. Es ist eine Eigenschaft des Systems, kein Verfahren, an das sich jemand erinnern muss.

Vom Datenmodell garantiert, nicht durch Operator-Disziplin.

Substrate fingerprinting + Supply-Chain-Detection.

Jede Evaluation wird mit einem substrate fingerprint gestempelt — dem Provider, Model und der SDK-Version hinter der Anfrage, plus einem optionalen, vom Kunden gelieferten lockfile hash, der über den Header `X-Mnemom-Lockfile-Hash` gesendet wird. AEGIS sieht verhaltensbasierte Abweichung über alle Kunden, die auf demselben Substrate laufen, gleichzeitig.

Am 11. Mai 2026 — der Mini-Shai-Hulud-Wurm kompromittierte mehr als 170 npm-Pakete und 2 PyPI-Pakete, darunter die SDK-Suite von Mistral AI und das PyPI-Paket von Guardrails AI. Die kompromittierten `@tanstack/*`-Versionen wurden mit gültigen SLSA-Build-Level-3-Attestierungen ausgeliefert — der erste dokumentierte Fall eines Wurms, der legitime signierte Provenance für bösartige Pakete produziert. Per-Tenant-Detection und Sigstore-Verifikation auf Paketebene können diese Angriffsklasse strukturell nicht erfassen.

OWASP Top 10 for Agentic Applications.

Ehrliches Mapping. Wo die Abdeckung partiell ist, sagen wir es. Die vollständige OWASP-ASI-Taxonomie (Dez. 2025) steht auf owasp.org.

OWASP-KategorieAbdeckungWie AEGIS sie adressiert
ASI02 — Tool Misuse
Vollständig
Policy Engine (CLPI Phase 1) + Managed Rules am inside.autonomy-Checkpoint. Tool-Call-Screening gegen die von der Alignment Card deklarierten Autonomie-Grenzen.
ASI03 — Privilege Compromise via Identity Abuse
Vollständig
AAP-deklarierte Autonomie-Grenzen (Alignment Card) + AIP-In-flight-Integrity-Verdicts + inside.integrity-Checkpoint-Screening für Identity-Abuse-Muster.
ASI06 — Agentic Supply Chain Compromise
Vollständig (Runtime)
Substrate fingerprinting auf jeder Evaluation. Der Cross-Tenant-Aggregator erkennt verhaltensbasierte Abweichungen, die kein einzelner Kunde sehen kann. Ergänzt — ersetzt nicht — Provenance auf Paketebene (SLSA, Sigstore).
ASI07 — System Prompt Leakage
Partiell
Back-door-Checkpoint-Screening auf bekannte System-Prompt-Muster + Secrets und Alignment-Card-Verstöße. Detection ist contentbasiert; Agenten, die ihren System Prompt auf Userwunsch legitim zitieren, werden nicht unterdrückt.

ASI01 (Prompt Injection), ASI04 (Resource Exhaustion), ASI05 (Cascading Hallucination), ASI08 (Repudiation & Untraceability), ASI09 (Identity Spoofing), ASI10 (Overreliance) sind auf andere Teile des Mnemom-Stacks abgebildet (AAP Cards, AIP-Verdicts, CLPI On-Chain-Anchoring, Trust Ratings) — abgedeckt auf /protection-network und /trust.

So vergleicht sich AEGIS.

Gekürzt aus der Competitive-Landscape-Recherche vom 23.05.2026. AEGIS ist die Netzwerkschicht; die unten genannten Anbieter sind komplementär, kein Ersatz — die vollständige Integrations-Story finden Sie unter /governance.

FähigkeitMnemom AEGISCloudflare WAFLakera GuardCisco AI DefenseAWS Bedrock GuardrailsGoogle Model Armor
Cross-Tenant-Managed-Rules mit signierter Promotion
Ja — Ed25519-signiert, P95 ≤ 30 s Propagation, öffentliche Audit-Chain
WAF Managed Rules (Web-Layer, nicht Agent-Layer)Vendor-kuratierte Threat-Intel; kein aus dem Kundennetzwerk gewonnenes SignalBuild-time-SDK-Embed; kein Runtime-Cross-Tenant-NetzwerkNur AWS; kein Cross-Customer-LearningIn-process-Filter; kein Netzwerk
Vier-Checkpoints-×-vier-Modi-Modell pro Agent
Ja — front door / back door / inside.autonomy / inside.integrity, jeder unabhängig konfigurierbar
Per-Route-WAF-Regeln; nicht auf Agent-Transaktion zugeschnittenEinzeldetektor zur RuntimeNeMo-Guardrails-Integration; Build-time-PolicyBedrock Guardrails pro Policy (Denylist, PII, contextual grounding)Prompt-Injection- + URL- + Harmful-Content-Filter
Substrate fingerprinting (provider + model + SDK-Version) auf jeder Evaluation
Ja — Cross-Tenant-Supply-Chain-Detection
NeinNeinNeinNeinNein
Öffentlicher STIX-2.1-IoC-Feed + signierte Advisories
Ja — /v1/trust/iocs (zum GA per Design leer)
Nur kundeninterne Radar-FeedsKein öffentlicher FeedTalos für traditionelle Bedrohungen; kein öffentlicher Agent-IoC-FeedNeinNein
Dual-Control-Invariante auf Tier-1/-2 (im Datenmodell durchgesetzt)
Ja — schemaerzwungen, nicht prozedural
Prozedurales Change-ManagementVendor-kontrolliertVendor-kontrolliertCustomer-Policy-IAMVendor-kontrolliert

Quellen: öffentliche Vendor-Dokumentation, 23.05.2026. AEGIS ist eine Schicht, die Kunden parallel zu diesen Produkten betreiben, kein Ersatz.

SLOs veröffentlicht. Kontinuierlich gemessen.

Headline-Zahlen unten. Die vollständige Tabelle — Measurement-Queries, historische Daten, sobald das erste 30-Tage-Fenster schließt, und die vier unterstützenden SLOs — lebt auf /trust/slos.

Managed-Rule-Propagation
P95 ≤ 30 s

Signierte Promotion → Gateway-geladen. Veröffentlichter Zielwert; erste Messungen 30 Tage nach GA.

Failover-Verfügbarkeit
99,99 %

Das Gateway lädt einen verifizierten Regelsatz über mehrere unabhängige Read-Tiers.

Rule-Set-Frische
P99 ≤ 5 min

Im Normalbetrieb. P0-Page bei 24h Staleness.

Das erste 30-Tage-Messfenster wird 30 Tage nach GA veröffentlicht. Wir kündigen keine Zahlen an, die wir nicht verteidigen können.

Veröffentlichte SLOs ansehen

Bringen Sie Ihre Tools mit.

Der IoC-Feed ist maschinenlesbares STIX 2.1. Die Audit-Chain ist verifizierbar. Das Dashboard steht jedem Kunden offen.

curl -s https://api.mnemom.ai/v1/trust/iocs | jq .
Featured on There's An AI For That