Mnemom Trust Rating™

La formule ouverte

Les scores de crédit cachent leurs calculs. Nous publions les nôtres.

Les Trust Ratings™ de Mnemom sont un composite de 0 à 1000 dérivé de cinq composantes mesurées indépendamment. Chaque pondération, chaque donnée d'entrée, chaque calcul — visible et vérifiable. Déplacez les curseurs ci-dessous pour voir exactement comment ça fonctionne.

trust-rating-simulator

La formule

S = 0.40(820) + 0.20(750) + 0.20(880) + 0.10(650) + 0.10(700) = 789

Ratio d'intégrité40%

820+328

Conformité20%

750+150

Stabilité de dérive20%

880+176

Complétude de la trace10%

650+65

Compatibilité de cohérence10%

700+70

Composite

789

Fiable

Déplacez les curseurs pour voir comment chaque composante affecte le score composite

Cinq composantes

Chaque composante mesure une dimension différente de la fiabilité. Cliquez sur n'importe quelle composante pour voir exactement ce qu'elle mesure, comment elle est calculée et pourquoi elle est pondérée ainsi.

Ce qu'elle mesure

Le pourcentage de points de contrôle d'analyse de la réflexion en temps réel qui réussissent la vérification d'alignement. Chaque fois qu'un agent IA raisonne pour prendre une décision, le protocole d'intégrité évalue si ce raisonnement est conforme à ses valeurs déclarées.

Comment elle est calculée

Chaque point de contrôle soumet le bloc de réflexion de l'agent à une analyse indépendante. Les verdicts réussite/échec sont signés cryptographiquement et enchaînés par hash. Le ratio est simplement : réussites / total des points de contrôle.

Pourquoi cette pondération

Avec une pondération de 40 %, c'est le signal le plus fort. Un agent qui réussit systématiquement les vérifications d'intégrité dans des conditions réelles — pas des benchmarks synthétiques — démontre un alignement authentique. C'est ce qui se rapproche le plus de « cet agent fait-il vraiment ce qu'il dit ? »

Ce qu'elle mesure

Dans quelle mesure cet agent reste dans les limites qu'il a déclarées. Un score de conformité élevé signifie peu ou pas de violations récentes. Un score bas signifie que des violations fréquentes ou récentes tirent la confiance vers le bas.

Comment elle est calculée

Les violations sont regroupées par session — seul l'impact décroissant le plus élevé par session est pris en compte (plafonné à 1,0). L'impact de chaque violation décroît selon 2^(-âge_heures/168), donnant une demi-vie d'une semaine. Le score est 1000 / (1 + impact_total_session)^1,5. Zéro violation = 1000 (conformité parfaite). Plus de sessions de violation, surtout récentes, font baisser le score — mais une seule mauvaise session ne peut pas effondrer le score comme le feraient cinq violations indépendantes.

Pourquoi cette pondération

Avec une pondération de 20 %, la conformité capture la trajectoire sans qu'une seule mauvaise session soit catastrophique. Le plafonnement par session signifie qu'une carte d'alignement défaillante produisant 5 faux positifs en 16 minutes compte comme un seul événement, pas cinq. La courbe de puissance dégrade de manière significative tout en préservant la différenciation du signal — un agent ayant de vrais problèmes répétés sur de nombreuses sessions obtient un score très différent d'un agent ayant eu une session malchanceuse.

Ce qu'elle mesure

La proportion de sessions opérationnelles où l'agent a maintenu un comportement cohérent sans dérive comportementale soutenue. La dérive signifie que le comportement réel de l'agent a divergé de sa ligne de base comportementale attendue.

Comment elle est calculée

Le système de détection de dérive surveille les schémas comportementaux à travers les sessions. Une session avec une dérive soutenue (pas une fluctuation momentanée — le système fait la distinction) est comptabilisée contre ce score. Le ratio est : sessions stables / total des sessions.

Pourquoi cette pondération

Avec une pondération de 20 %, la stabilité compte car l'alignement n'est pas une vérification ponctuelle — c'est une propriété continue. Un agent peut réussir les vérifications d'intégrité individuelles tout en modifiant graduellement son comportement de manière préoccupante. La stabilité de la dérive détecte ce que les vérifications ponctuelles ne captent pas.

Ce qu'elle mesure

Une mesure de la qualité de la piste d'audit — si l'agent journalise ses décisions via le protocole de responsabilité. Des traces complètes signifient que chaque décision significative dispose d'un enregistrement vérifiable.

Comment elle est calculée

Le protocole de responsabilité (AAP) attend des entrées de trace pour les décisions, les appels d'outils et les transitions d'état. La complétude est le ratio entre les entrées de trace réelles et les entrées attendues basées sur le modèle d'activité de l'agent.

Pourquoi cette pondération

Avec une pondération de 10 %, c'est un facteur d'hygiène. Un agent avec un score d'intégrité parfait mais des traces incomplètes soulève des questions — si vous n'avez rien à cacher, pourquoi ne journalisez-vous pas ? Des traces incomplètes ne prouvent pas une faute, mais des traces complètes prouvent la transparence.

Ce qu'elle mesure

Dans quelle mesure les valeurs et le comportement de cet agent s'alignent avec les autres agents avec lesquels il travaille dans des systèmes multi-agents. Mesuré par l'analyse de compatibilité par paire du moteur de cohérence de flotte.

Comment elle est calculée

Lorsque les agents opèrent en flottes, le moteur de cohérence évalue l'alignement des valeurs par paire, les schémas de conflit et les comportements de résolution. Le score reflète le bilan de cet agent en matière de collaboration productive multi-agents.

Pourquoi cette pondération

Avec une pondération de 10 %, cela compte car les agents travaillent de plus en plus ensemble. Un agent individuellement fiable qui cause systématiquement des conflits dans des environnements multi-agents présente un profil de risque différent de celui qui collabore bien. C'est le signal « joue bien avec les autres ».

Échelle de notation

Inspirée de la notation obligataire. Sept grades de AAA (Exemplaire) à CCC (Critique), plus NR pour les agents n'ayant pas encore atteint le minimum de 50 points de contrôle.

AAA

BBB

CCC

AAA

Exemplaire

900–1000

Établi

800–899

Fiable

700–799

BBB

En développement

600–699

Émergent

500–599

Préoccupant

400–499

CCC

Critique

200–399

Protections anti-manipulation

La transparence ne signifie pas l'exploitabilité. Le système de notation inclut plusieurs protections qui le rendent résistant à la manipulation.

Vérification par protocole uniquement

Seuls les points de contrôle générés par le pipeline cryptographique du protocole d'intégrité sont comptabilisés. Vous ne pouvez pas injecter de points de contrôle synthétiques — chacun est signé Ed25519 et enchaîné par hash.

Vérification de signature + validation du hash de chaîne

Décroissance plafonnée par session

La notation de conformité regroupe les violations par session et ne retient que la pire par session, puis applique une demi-vie d'une semaine. Cela empêche une seule mauvaise session de s'accumuler injustement tout en pénalisant les violations répétées à travers les sessions.

score = 1000 / (1 + Σ impact_max_par_session)^1,5, demi-vie de décroissance = 7 jours

Seuil minimum de points de contrôle

Les agents ont besoin d'au moins 50 points de contrôle analysés avant de recevoir un score public. Cela empêche les agents éphémères d'obtenir un score élevé avec un minimum de données.

50 points de contrôle minimum pour passer de NR à noté

Dérive vs. vérifications ponctuelles

Le système mesure à la fois l'intégrité ponctuelle et les schémas comportementaux soutenus. Un agent qui réussit les vérifications individuelles mais dérive au fil du temps verra quand même son score refléter cette instabilité.

Ratio d'intégrité + stabilité de la dérive = 60 % combinés

Pourquoi une notation ouverte

La confiance exige la transparence

On ne peut pas construire une infrastructure de confiance sur une boîte noire. Si nous vous demandons de faire confiance à nos scores, vous devriez pouvoir vérifier exactement comment ils sont calculés.

La responsabilité va dans les deux sens

Nous tenons les agents responsables de normes d'alignement. Publier la méthodologie nous rend responsables de l'équité. Si nos pondérations sont erronées, vous pouvez nous le dire.

De meilleurs signaux, pas des secrets

La sécurité par l'obscurité ne fonctionne pas pour les systèmes de notation — cela ne fait que susciter la méfiance. Nos défenses anti-manipulation reposent sur la vérification cryptographique, pas sur des formules cachées.

Voyez le système de notation appliqué à de vrais agents.

Parcourir le répertoire de confiance Voir les protocoles en action