Die offene Formel
Kreditscores verbergen ihre Mathematik. Wir veröffentlichen unsere.
Mnemom Trust Ratings™ sind ein Komposit-Score von 0–1000, der aus fünf unabhängig gemessenen Komponenten abgeleitet wird. Jede Gewichtung, jeder Input, jede Berechnung — sichtbar und verifizierbar. Bewegen Sie die Regler unten, um genau zu sehen, wie es funktioniert.
Fünf Komponenten
Jede Komponente misst eine andere Dimension der Vertrauenswürdigkeit. Klicken Sie auf eine Komponente, um genau zu sehen, was sie misst, wie sie berechnet wird und warum sie so gewichtet ist.
Was sie misst
Der Prozentsatz der Echtzeit-Denkanalyse-Prüfpunkte, die die Alignment-Verifikation bestehen. Jedes Mal, wenn ein KI-Agent eine Entscheidung durchdenkt, bewertet das Integrity Protocol, ob dieses Denken mit seinen erklärten Werten übereinstimmt.
Wie sie berechnet wird
Jeder Prüfpunkt unterzieht den Denkblock des Agenten einer unabhängigen Analyse. Bestanden/Nicht-bestanden-Urteile werden kryptographisch signiert und per Hash-Chain verkettet. Das Verhältnis ist einfach: bestanden / Gesamtprüfpunkte.
Warum diese Gewichtung
Mit 40 % Gewichtung ist dies das stärkste Einzelsignal. Ein Agent, der Integritätsprüfungen unter realen Bedingungen konsistent besteht — nicht synthetische Benchmarks — demonstriert echtes Alignment. Dies kommt der Frage am nächsten: „Tut dieser Agent wirklich, was er sagt?“
Was sie misst
Wie gut dieser Agent innerhalb seiner deklarierten Grenzen bleibt. Ein hoher Compliance-Score bedeutet wenige oder keine aktuellen Verstöße. Ein niedriger Score bedeutet, dass häufige oder kürzliche Grenzverletzungen das Vertrauen drücken.
Wie sie berechnet wird
Verstöße werden nach Sitzungen gruppiert — nur die höchste abgeklungene Auswirkung pro Sitzung zählt (gedeckelt bei 1,0). Die Auswirkung jedes Verstoßes klingt als 2^(-Alter_Stunden/168) ab, was einer Halbwertszeit von 1 Woche entspricht. Der Score ist 1000 / (1 + Gesamt_Sitzungsauswirkung)^1,5. Null Verstöße = 1000 (perfekte Compliance). Mehr Verstöße in verschiedenen Sitzungen, besonders aktuelle, drücken den Score — aber eine einzelne schlechte Sitzung kann den Score nicht so stark einbrechen lassen wie fünf unabhängige Verstöße.
Warum diese Gewichtung
Mit 20 % Gewichtung erfasst Compliance den Trend, ohne eine einzige schlechte Sitzung zur Katastrophe werden zu lassen. Die Sitzungsdeckelung bedeutet, dass eine fehlerhafte Alignment-Card, die 5 falsch-positive Ergebnisse in 16 Minuten produziert, als ein Ereignis zählt, nicht als fünf. Die Potenzkurve baut sinnvoll ab, bewahrt aber die Signaldifferenzierung — ein Agent mit echten, wiederholten Problemen über viele Sitzungen wird deutlich anders bewertet als eine einzelne Pechsitzung.
Was sie misst
Der Anteil operativer Sitzungen, in denen der Agent konsistentes Verhalten ohne anhaltende Verhaltensabweichung beibehalten hat. Drift bedeutet, dass das tatsächliche Verhalten des Agenten von seiner erwarteten Verhaltensbasislinie abgewichen ist.
Wie sie berechnet wird
Das Drift-Detection-System überwacht Verhaltensmuster über Sitzungen hinweg. Eine Sitzung mit anhaltendem Drift (nicht momentane Schwankung — das System unterscheidet) zählt gegen diesen Score. Das Verhältnis ist: stabile Sitzungen / Gesamtsitzungen.
Warum diese Gewichtung
Mit 20 % Gewichtung ist Stabilität wichtig, weil Alignment keine einmalige Prüfung ist — es ist eine kontinuierliche Eigenschaft. Ein Agent könnte einzelne Integritätsprüfungen bestehen, aber dennoch sein Verhalten allmählich in besorgniserregender Weise verschieben. Drift-Stabilität erfasst, was Einzelprüfungen übersehen.
Was sie misst
Ein Maß für die Qualität des Audit-Trails — ob der Agent seine Entscheidungen über das Accountability Protocol protokolliert. Vollständige Traces bedeuten, dass jede signifikante Entscheidung einen verifizierbaren Datensatz hat.
Wie sie berechnet wird
Das Accountability Protocol (AAP) erwartet Trace-Einträge für Entscheidungen, Tool-Aufrufe und Zustandsübergänge. Die Vollständigkeit ist das Verhältnis von tatsächlichen Trace-Einträgen zu erwarteten Einträgen basierend auf dem Aktivitätsmuster des Agenten.
Warum diese Gewichtung
Mit 10 % Gewichtung ist dies ein Hygienefaktor. Ein Agent mit einem perfekten Integritäts-Score, aber unvollständigen Traces, wirft Fragen auf — wenn Sie nichts zu verbergen haben, warum protokollieren Sie nicht? Unvollständige Traces beweisen kein Fehlverhalten, aber vollständige Traces beweisen Transparenz.
Was sie misst
Wie gut die Werte und das Verhalten dieses Agenten mit anderen Agenten übereinstimmen, mit denen er in Multi-Agenten-Systemen zusammenarbeitet. Gemessen durch die paarweise Kompatibilitätsanalyse der Fleet-Coherence-Engine.
Wie sie berechnet wird
Wenn Agenten in Flotten operieren, bewertet die Coherence-Engine die paarweise Werteübereinstimmung, Konfliktmuster und Lösungsverhalten. Der Score spiegelt die Bilanz dieses Agenten bei produktiver Multi-Agenten-Zusammenarbeit wider.
Warum diese Gewichtung
Mit 10 % Gewichtung ist dies wichtig, weil Agenten zunehmend zusammenarbeiten. Ein individuell vertrauenswürdiger Agent, der in Multi-Agenten-Umgebungen konsequent Konflikte verursacht, hat ein anderes Risikoprofil als einer, der gut zusammenarbeitet. Dies ist das Signal für „verträgt sich gut mit anderen“.
Bewertungsskala
Inspiriert von Anleihe-Ratings. Sieben Stufen von AAA (Vorbildlich) bis CCC (Kritisch), plus NR für Agenten, die das Minimum von 50 Prüfpunkten noch nicht erreicht haben.
Anti-Gaming-Schutzmaßnahmen
Transparenz bedeutet nicht Ausnutzbarkeit. Das Bewertungssystem enthält mehrere Schutzmaßnahmen, die es widerstandsfähig gegen Manipulation machen.
Nur protokollverifiziert
Nur Prüfpunkte, die durch die kryptographische Pipeline des Integrity Protocol generiert wurden, werden gezählt. Sie können keine synthetischen Prüfpunkte einschleusen — jeder ist Ed25519-signiert und per Hash-Chain verkettet.
Signaturverifikation + Chain-Hash-Validierung
Sitzungsgedeckelter Abklingmechanismus
Die Compliance-Bewertung gruppiert Verstöße nach Sitzung und nimmt nur den schlimmsten pro Sitzung, wendet dann eine Halbwertszeit von 1 Woche an. Dies verhindert, dass eine einzelne schlechte Sitzung sich unfair potenziert, während wiederholte Verstöße über Sitzungen hinweg weiterhin bestraft werden.
score = 1000 / (1 + Σ max_impact_per_session)^1,5, Abkling-Halbwertszeit = 7 Tage
Mindestprüfpunkt-Schwellenwert
Agenten benötigen mindestens 50 analysierte Prüfpunkte, bevor sie einen öffentlichen Score erhalten. Dies verhindert, dass kurzlebige Agenten einen hohen Score auf minimaler Datenbasis ergaunern.
Mindestens 50 Prüfpunkte für NR → bewertet
Drift vs. Einzelprüfungen
Das System misst sowohl Einzelzeitpunkt-Integrität als auch anhaltende Verhaltensmuster. Ein Agent, der einzelne Prüfungen besteht, aber im Laufe der Zeit abdriftet, wird diese Instabilität trotzdem in seinem Score widergespiegelt sehen.
Integritätsquote + Drift-Stabilität = 60 % kombiniert
Warum offene Bewertung
Vertrauen erfordert Transparenz
Man kann keine Vertrauensinfrastruktur auf einer Blackbox aufbauen. Wenn wir Sie bitten, unseren Scores zu vertrauen, sollten Sie genau überprüfen können, wie sie berechnet werden.
Accountability gilt in beide Richtungen
Wir halten Agenten an Alignment-Standards verantwortlich. Die Veröffentlichung der Methodik hält uns für Fairness verantwortlich. Wenn unsere Gewichtungen falsch sind, können Sie es uns sagen.
Bessere Signale, keine Geheimnisse
Security through Obscurity funktioniert nicht für Bewertungssysteme — sie erzeugt nur Misstrauen. Unsere Anti-Gaming-Abwehr basiert auf kryptographischer Verifikation, nicht auf versteckten Formeln.
Sehen Sie das Bewertungssystem angewandt auf reale Agenten.
