Invarianza delle Politiche: Un Nuovo Test di Affidabilità per i Giudici di Sicurezza degli LLM
Un recente preprint su arXiv (2605.06161) propone l''invarianza delle politiche' come caratteristica essenziale per valutatori di sicurezza affidabili nel paradigma LLM-as-a-Judge. Gli autori sostengono che i benchmark attuali assumono che le decisioni dei giudici siano verità assolute, senza verificare se tali decisioni siano influenzate dalle azioni dell'agente o semplicemente dalla formulazione della politica di valutazione. Definiscono l'invarianza delle politiche attraverso tre principi: mantenere la coerenza semantica della rubrica tramite riscritture equivalenti certificate, garantire la stabilità della soglia della rubrica durante transizioni deliberate da severo a indulgente, e impiegare una calibrazione consapevole dell'ambiguità per evidenziare incongruenze nei verdetti in scenari genuinamente ambigui. Valutando quattro giudici di classe agente con dati da ASSEBench e R-Judge, identificano una modalità di fallimento non riconosciuta: i giudici reagiscono a cambiamenti normativi significativi e a modifiche strutturali banali. Lo studio suggerisce un protocollo di stress test per rivelare tali fallimenti.
Fatti principali
- Il preprint arXiv 2605.06161 propone l'invarianza delle politiche per i giudici di sicurezza degli LLM
- L'invarianza delle politiche ha tre principi: invarianza semantica della rubrica, invarianza della soglia della rubrica, calibrazione consapevole dell'ambiguità
- Testato su quattro giudici di classe agente utilizzando traiettorie di ASSEBench e R-Judge
- I giudici rispondono sia a cambiamenti normativi significativi che a riscritture strutturali prive di significato
- I benchmark esistenti trattano i verdetti degli LLM come proxy di verità assoluta senza verificare la dipendenza dalle politiche
Entità
Istituzioni
- arXiv