Proving Ground · Live-Arena für Adversarial-Tests

Fünfzehn Angreifer attackieren unsere Abwehr rund um die Uhr. Jeder Durchbruch macht sie stärker.

Jede Persona ist auf eine andere Angriffsklasse spezialisiert — Prompt-Injection, Social Engineering, Datenexfiltration, Lieferketten-Kompromittierung — über alle vier Checkpoints hinweg, ohne Pause. Findet eine eine Lücke, wird daraus eine geprüfte, kryptografisch signierte Erkennung, die jeden Agenten im Netzwerk schützt, nicht nur die Arena.

Der Kader

Fünfzehn Angreifer, jede Bedrohung an jedem Checkpoint

Jeder unserer fünfzehn benannten Angreifer besetzt eine Zelle der Bedrohungsmatrix — eine bestimmte Angriffsklasse an einem bestimmten Checkpoint. The Substrate Mole etwa führt Lieferketten-Angriffe am Integritäts-Checkpoint aus. Während die Abwehr härter wird, mutiert jeder Angreifer innerhalb seines Fachgebiets — tiefer bohrend, nicht abschweifend — so bleibt die Abdeckung vollständig und der Druck gezielt.

front door

Vordertür — eingehende Prompts und Tool-Ergebnisse: Prompt-Injection, indirekte Injection, CEO-Betrug, Jailbreaks, mehrstufige Hijacks, Agenten-Spoofing, mehrsprachige Varianten und Burst-Rauschen.

inside.autonomy

Autonomie-Checkpoint — was der Agent tun darf: das Ausloten von Tool-Grenzen, nicht deklarierte Tool-Aufrufe und Aktionen jenseits des Mandats des Agenten.

inside.integrity

Integritäts-Checkpoint — wie der Agent denkt: Integrität der Argumentationskette, Lieferketten-Kompromittierung (The Substrate Mole), Prompt-Laundering und Werte-Drift.

back door

Hintertür — ausgehende Antworten: Schutz vor Datenverlust, Exfiltration von Zugangsdaten und Canaries, PII/PHI-Lecks und System-Prompt-Lecks.

Jeder Angreifer ist genau einer Bedrohungs-×-Checkpoint-Zelle zugeordnet. Mutation erkundet innerhalb dieser Zelle — nie darüber hinaus — so bleibt die Matrix vollständig und gleichmäßig abgedeckt.

Adaptiver Druck

Wenn die Abwehr zu gewinnen beginnt, entwickeln sich die Angriffe weiter

Die Arena verbringt die meiste Zeit damit, neue Wege hindurch zu suchen. Doch wenn die Abwehr eine bestimmte Angriffsklasse zuverlässig abfängt, schaltet die Arena dort um — sie wiederholt bekannte Angriffe nicht mehr, sondern mutiert sie und setzt die gepatchte Abwehr unter Druck, statt sich auf ihr auszuruhen. Jede Angriffsklasse wird einzeln verfolgt, sodass die Arena einen Bereich härten kann, während sie einen anderen noch erkundet.

Eintritts-Schwellwert

95% abgefangen, anhaltend

Genug Volumen (180–360 Versuche), um schnell zu reagieren, ohne Rauschen hinterherzujagen.

Fenster

48-Stunden-Rolling

Kontinuierlicher Rückblick, keine Kalenderfenster.

Eintritts-Hysterese

24 Stunden anhaltend

Ein Ausreißer löst es nicht aus — die Rate muss einen ganzen Tag halten.

Austritts-Hysterese

24 Stunden anhaltend

Ein Bucket muss 24 Stunden lang unter dem Exit-Schwellwert bleiben, bevor er in den Find-Modus zurückkehrt.

Austritts-Schwellwert

90% abgefangen

Unter der Eintrittsschwelle angesetzt, damit das System an der Grenze nicht flattert.

Unabhängigkeit pro Bucket

nach Substrat, Branche, Muster und Quelle

Ein Finanzagent härtet vielleicht gegen CEO-Betrug, während er Prompt-Injection noch erkundet — jeweils einzeln verfolgt.

Ehrliche Einordnung

Dieses adaptive Gating ist in unserer Arena gebaut und ausgeliefert. Die erste Aktivierung in der Produktion melden wir auf /trust/advisories — wir werten fertigen Code nicht als im Feld bewiesen.

Least Privilege by Design

Die Arena kann eine Schwachstelle finden. Beheben kann sie sie nicht im Alleingang.

Die Arena läuft mit einer eigenen, eng begrenzten Identität. Sie kann genau eines: eine Kandidaten-Erkennung zur menschlichen Prüfung einreichen. Sie kann keine Regel befördern, keine aktive Regel ändern, keine zurückziehen und nichts anderes anfassen. Jeder Kandidat wird — vom Server, nie vom Client — mit seiner Herkunft gestempelt, sodass ein Arena-Fund sich nie als Kundenmeldung oder Betreiber-Aktion ausgeben kann.

writer_identity = arena-bypass
auth            = ARENA_RECIPE_CANDIDATE_TOKEN
write_scope     = recipe_candidates only
read_scope      = none (no live-rule visibility)
promote_scope   = none (separate reviewer auth required)

Scope

Die Anmeldedaten der Arena öffnen genau eine Tür — das Einreichen eines Kandidaten zur Prüfung. Kein Lesezugriff auf aktive Regeln. Kein Schreibzugriff auf irgendetwas anderes.

Server-gestempelte Herkunft

Die Quelle jedes Kandidaten wird vom Server aus der authentifizierten Identität gesetzt, nie vom Client. Die Arena kann sich nicht als Kundenmeldung oder Betreiber ausgeben.

Append-only-Audit

Jede Aktion an jeder Regel wird in einem Append-only-Log festgehalten — wer was wann. Das Befördern eines Arena-Funds erfordert weiterhin einen separat authentifizierten menschlichen Prüfer.

Vier-Augen-Prinzip, erzwungen

Regeln, die echten Produktionsverkehr blockieren können, werden nie automatisch befördert — egal aus welcher Quelle oder mit welchen Einstellungen. Zwei authentifizierte Prüfer sind erforderlich, und das wird von der Datenbank selbst erzwungen, nicht von einem Prozess, der übersprungen werden könnte.

Die Integrität der Beförderung wird auf Datenebene erzwungen, nicht per Konvention.

Vom Fund zur Korrektur

Vom Arena-Durchbruch zum aktiven Schutz — fünf geprüfte Schritte

Fünf Stufen verwandeln einen Arena-Durchbruch in aktiven Schutz. Jeder Schritt wird in einem Append-only-Audit-Trail protokolliert. Es ist dieselbe Pipeline, durch die Kundenmeldungen und unsere mandantenübergreifende Intelligence laufen — die Arena ist eine von drei Signalquellen, keine Abkürzung.

1 · Bypass gefunden

Ein Angreifer kommt durch. Der Fund wird als Kandidat zur Prüfung eingereicht — noch ist nichts aktiv.

→

2 · Menschliche Prüfung

Betreiber sichten jeden Kandidaten. Standard ist eine manuelle Freigabe; schnellere Auto-Freigabe ist optional und gilt nur für beratende Regeln — alles, was echten Verkehr blockieren kann, braucht stets zwei Menschen.

→

3 · Signierte Beförderung

Freigegebene Regeln werden kryptografisch signiert, und jede Freigabe — erstellt, geprüft, signiert — wird im Append-only-Audit-Trail festgehalten.

→

4 · Redundante Verteilung

Jede signierte Regel wird in zwei unabhängig verschlüsselte Speicher geschrieben und verifiziert, bevor ein Gateway sie lädt. Die Regel-Ebene zu vergiften, hieße mehrere unabhängige Systeme gleichzeitig zu kompromittieren.

→

5 · Beobachten, dann durchsetzen

Neue Regeln laufen 24 Stunden im observe-Modus. Bleibt ihre Fehlalarmrate sauber, werden sie zu durchsetzenden Regeln befördert; andernfalls werden sie zurückgerollt — heute durch einen Operator bestätigt, in einer späteren Phase automatisch.

Ehrliche Einordnung

Was diese Seite behauptet — und was nicht.

Jede tragende Aussage auf dieser Seite zitiert eine öffentliche Referenz. Die folgenden Punkte sind die Aufschübe, die wir bewusst benennen — CISOs respektieren ehrliche Einschränkungs-Offenlegung; sie bestrafen entdeckte Einschränkungen.

Adaptives Pressure-Testing ist in unserer Arena gebaut und ausgeliefert. In der Produktion wurde es noch nicht aktiviert — wenn es so weit ist, melden wir es auf /trust/advisories.
Die Arena ist das Labor. Hier gefundene Bypässe zählen nicht als reale Erkennungen. Eine beförderte Erkennung durchläuft die Prüfer-Freigabe und einen 24-stündigen Beobachtungslauf, bevor sie durchsetzt — was Sie auf /dashboard/threats sehen, ist das Ergebnis dieser Pipeline, nicht direkt die Arena.
Zur GA zeigt die Advisory-Liste ein einziges synthetisches Post-mortem, klar als synthetisch gekennzeichnet. Der IoC feed ist konstruktionsbedingt leer. Das System sagt die Wahrheit — wir täuschen keine Aktivität vor, um beschäftigt zu wirken.
Beratende Regeln werden zum Start automatisch befördert ausgeliefert. Regeln, die Produktionsverkehr blockieren können, erfordern zwei authentifizierte Prüfer — und das wird heute von der Plattform erzwungen.

Wohin als Nächstes

Von der Arena zu Ihrer Flotte.

Die Arena ist eine von drei Signalquellen für das AEGIS Protection Network — neben Kundenmeldungen und unserer mandantenübergreifenden Intelligence. Alle drei laufen durch dieselbe signierte Beförderungs-Pipeline.

Ihr threat thermometer

Live-Status für Ihre Flotte auf /dashboard/threats. Calm at GA by design — wenn sich etwas ändert, sehen Sie es zuerst.

Das vollständige L0-L5-Netzwerk

Bedrohungsidentität, mandantenübergreifende Intelligence, das Under-Attack-Overlay, die Verteilung verwalteter Regeln, Ihr Bedrohungsthermometer und der IoC-Feed — das gesamte Protection Network, durchgängig.

Sprechen Sie mit uns

Enterprise, regulierte Branchen, self-hosted-Deployments — die Themen, die ein Gespräch brauchen, nicht einen Checkout.