Invarianza delle Politiche: Un Nuovo Test di Affidabilità per i Giudici di Sicurezza degli LLM

ai-technology · 2026-05-09

Un recente preprint su arXiv (2605.06161) propone l''invarianza delle politiche' come caratteristica essenziale per valutatori di sicurezza affidabili nel paradigma LLM-as-a-Judge. Gli autori sostengono che i benchmark attuali assumono che le decisioni dei giudici siano verità assolute, senza verificare se tali decisioni siano influenzate dalle azioni dell'agente o semplicemente dalla formulazione della politica di valutazione. Definiscono l'invarianza delle politiche attraverso tre principi: mantenere la coerenza semantica della rubrica tramite riscritture equivalenti certificate, garantire la stabilità della soglia della rubrica durante transizioni deliberate da severo a indulgente, e impiegare una calibrazione consapevole dell'ambiguità per evidenziare incongruenze nei verdetti in scenari genuinamente ambigui. Valutando quattro giudici di classe agente con dati da ASSEBench e R-Judge, identificano una modalità di fallimento non riconosciuta: i giudici reagiscono a cambiamenti normativi significativi e a modifiche strutturali banali. Lo studio suggerisce un protocollo di stress test per rivelare tali fallimenti.

Fatti principali

Il preprint arXiv 2605.06161 propone l'invarianza delle politiche per i giudici di sicurezza degli LLM
L'invarianza delle politiche ha tre principi: invarianza semantica della rubrica, invarianza della soglia della rubrica, calibrazione consapevole dell'ambiguità
Testato su quattro giudici di classe agente utilizzando traiettorie di ASSEBench e R-Judge
I giudici rispondono sia a cambiamenti normativi significativi che a riscritture strutturali prive di significato
I benchmark esistenti trattano i verdetti degli LLM come proxy di verità assoluta senza verificare la dipendenza dalle politiche

Invarianza delle Politiche: Un Nuovo Test di Affidabilità per i Giudici di Sicurezza degli LLM

Fatti principali

Entità

Istituzioni

Fonti