La formule ouverte
Les scores de crédit cachent leurs calculs. Nous publions les nôtres.
Les Trust Ratings™ de Mnemom sont un composite de 0 à 1000 dérivé de cinq composantes mesurées indépendamment. Chaque pondération, chaque donnée d'entrée, chaque calcul — visible et vérifiable. Déplacez les curseurs ci-dessous pour voir exactement comment ça fonctionne.
Cinq composantes
Chaque composante mesure une dimension différente de la fiabilité. Cliquez sur n'importe quelle composante pour voir exactement ce qu'elle mesure, comment elle est calculée et pourquoi elle est pondérée ainsi.
Ce qu'elle mesure
Le pourcentage de points de contrôle d'analyse de la réflexion en temps réel qui réussissent la vérification d'alignement. Chaque fois qu'un agent IA raisonne pour prendre une décision, le protocole d'intégrité évalue si ce raisonnement est conforme à ses valeurs déclarées.
Comment elle est calculée
Chaque point de contrôle soumet le bloc de réflexion de l'agent à une analyse indépendante. Les verdicts réussite/échec sont signés cryptographiquement et enchaînés par hash. Le ratio est simplement : réussites / total des points de contrôle.
Pourquoi cette pondération
Avec une pondération de 40 %, c'est le signal le plus fort. Un agent qui réussit systématiquement les vérifications d'intégrité dans des conditions réelles — pas des benchmarks synthétiques — démontre un alignement authentique. C'est ce qui se rapproche le plus de « cet agent fait-il vraiment ce qu'il dit ? »
Ce qu'elle mesure
Dans quelle mesure cet agent reste dans les limites qu'il a déclarées. Un score de conformité élevé signifie peu ou pas de violations récentes. Un score bas signifie que des violations fréquentes ou récentes tirent la confiance vers le bas.
Comment elle est calculée
Les violations sont regroupées par session — seul l'impact décroissant le plus élevé par session est pris en compte (plafonné à 1,0). L'impact de chaque violation décroît selon 2^(-âge_heures/168), donnant une demi-vie d'une semaine. Le score est 1000 / (1 + impact_total_session)^1,5. Zéro violation = 1000 (conformité parfaite). Plus de sessions de violation, surtout récentes, font baisser le score — mais une seule mauvaise session ne peut pas effondrer le score comme le feraient cinq violations indépendantes.
Pourquoi cette pondération
Avec une pondération de 20 %, la conformité capture la trajectoire sans qu'une seule mauvaise session soit catastrophique. Le plafonnement par session signifie qu'une carte d'alignement défaillante produisant 5 faux positifs en 16 minutes compte comme un seul événement, pas cinq. La courbe de puissance dégrade de manière significative tout en préservant la différenciation du signal — un agent ayant de vrais problèmes répétés sur de nombreuses sessions obtient un score très différent d'un agent ayant eu une session malchanceuse.
Ce qu'elle mesure
La proportion de sessions opérationnelles où l'agent a maintenu un comportement cohérent sans dérive comportementale soutenue. La dérive signifie que le comportement réel de l'agent a divergé de sa ligne de base comportementale attendue.
Comment elle est calculée
Le système de détection de dérive surveille les schémas comportementaux à travers les sessions. Une session avec une dérive soutenue (pas une fluctuation momentanée — le système fait la distinction) est comptabilisée contre ce score. Le ratio est : sessions stables / total des sessions.
Pourquoi cette pondération
Avec une pondération de 20 %, la stabilité compte car l'alignement n'est pas une vérification ponctuelle — c'est une propriété continue. Un agent peut réussir les vérifications d'intégrité individuelles tout en modifiant graduellement son comportement de manière préoccupante. La stabilité de la dérive détecte ce que les vérifications ponctuelles ne captent pas.
Ce qu'elle mesure
Une mesure de la qualité de la piste d'audit — si l'agent journalise ses décisions via le protocole de responsabilité. Des traces complètes signifient que chaque décision significative dispose d'un enregistrement vérifiable.
Comment elle est calculée
Le protocole de responsabilité (AAP) attend des entrées de trace pour les décisions, les appels d'outils et les transitions d'état. La complétude est le ratio entre les entrées de trace réelles et les entrées attendues basées sur le modèle d'activité de l'agent.
Pourquoi cette pondération
Avec une pondération de 10 %, c'est un facteur d'hygiène. Un agent avec un score d'intégrité parfait mais des traces incomplètes soulève des questions — si vous n'avez rien à cacher, pourquoi ne journalisez-vous pas ? Des traces incomplètes ne prouvent pas une faute, mais des traces complètes prouvent la transparence.
Ce qu'elle mesure
Dans quelle mesure les valeurs et le comportement de cet agent s'alignent avec les autres agents avec lesquels il travaille dans des systèmes multi-agents. Mesuré par l'analyse de compatibilité par paire du moteur de cohérence de flotte.
Comment elle est calculée
Lorsque les agents opèrent en flottes, le moteur de cohérence évalue l'alignement des valeurs par paire, les schémas de conflit et les comportements de résolution. Le score reflète le bilan de cet agent en matière de collaboration productive multi-agents.
Pourquoi cette pondération
Avec une pondération de 10 %, cela compte car les agents travaillent de plus en plus ensemble. Un agent individuellement fiable qui cause systématiquement des conflits dans des environnements multi-agents présente un profil de risque différent de celui qui collabore bien. C'est le signal « joue bien avec les autres ».
Échelle de notation
Inspirée de la notation obligataire. Sept grades de AAA (Exemplaire) à CCC (Critique), plus NR pour les agents n'ayant pas encore atteint le minimum de 50 points de contrôle.
Protections anti-manipulation
La transparence ne signifie pas l'exploitabilité. Le système de notation inclut plusieurs protections qui le rendent résistant à la manipulation.
Vérification par protocole uniquement
Seuls les points de contrôle générés par le pipeline cryptographique du protocole d'intégrité sont comptabilisés. Vous ne pouvez pas injecter de points de contrôle synthétiques — chacun est signé Ed25519 et enchaîné par hash.
Vérification de signature + validation du hash de chaîne
Décroissance plafonnée par session
La notation de conformité regroupe les violations par session et ne retient que la pire par session, puis applique une demi-vie d'une semaine. Cela empêche une seule mauvaise session de s'accumuler injustement tout en pénalisant les violations répétées à travers les sessions.
score = 1000 / (1 + Σ impact_max_par_session)^1,5, demi-vie de décroissance = 7 jours
Seuil minimum de points de contrôle
Les agents ont besoin d'au moins 50 points de contrôle analysés avant de recevoir un score public. Cela empêche les agents éphémères d'obtenir un score élevé avec un minimum de données.
50 points de contrôle minimum pour passer de NR à noté
Dérive vs. vérifications ponctuelles
Le système mesure à la fois l'intégrité ponctuelle et les schémas comportementaux soutenus. Un agent qui réussit les vérifications individuelles mais dérive au fil du temps verra quand même son score refléter cette instabilité.
Ratio d'intégrité + stabilité de la dérive = 60 % combinés
Pourquoi une notation ouverte
La confiance exige la transparence
On ne peut pas construire une infrastructure de confiance sur une boîte noire. Si nous vous demandons de faire confiance à nos scores, vous devriez pouvoir vérifier exactement comment ils sont calculés.
La responsabilité va dans les deux sens
Nous tenons les agents responsables de normes d'alignement. Publier la méthodologie nous rend responsables de l'équité. Si nos pondérations sont erronées, vous pouvez nous le dire.
De meilleurs signaux, pas des secrets
La sécurité par l'obscurité ne fonctionne pas pour les systèmes de notation — cela ne fait que susciter la méfiance. Nos défenses anti-manipulation reposent sur la vérification cryptographique, pas sur des formules cachées.
Voyez le système de notation appliqué à de vrais agents.
