Benchmark MOOD testa i monitor LLM per i fallimenti di allineamento fuori distribuzione

ai-technology · 2026-05-23

I ricercatori hanno introdotto un benchmark chiamato Misalignment Out Of Distribution (MOOD) per studiare sistematicamente se le pipeline di monitoraggio degli LLM possono rilevare fallimenti di allineamento fuori distribuzione (OOD). Il benchmark include un set di addestramento ristretto utilizzato per addestrare i monitor, più sette set di test con diversi fallimenti di allineamento al di fuori della distribuzione di addestramento. I risultati mostrano che i modelli di guardia (classificatori di sicurezza) spesso non riescono a generalizzare a scenari OOD. Per affrontare questo problema, lo studio propone di combinare i modelli di guardia con rilevatori OOD, testando quattro tipi e scoprendo che una combinazione con la distanza di Mahalanobis funziona meglio. Il lavoro mira a migliorare il rilevamento di fallimenti di sicurezza causati da prompt o risposte insolite non previste dagli sviluppatori.

Fatti principali

Introdotto il benchmark MOOD per studiare il rilevamento di fallimenti di allineamento OOD negli LLM
Include un set di addestramento ristretto e sette set di test OOD
I modelli di guardia non riescono a generalizzare a scenari OOD
Soluzione proposta: combinare modelli di guardia con rilevatori OOD
Combinazione basata sulla distanza di Mahalanobis trovata efficace
Focus sui fallimenti di sicurezza da pattern insoliti di prompt/risposta
Numero arXiv: 2605.21602
La ricerca affronta i limiti dei classificatori di sicurezza standard

Benchmark MOOD testa i monitor LLM per i fallimenti di allineamento fuori distribuzione

Fatti principali

Entità

Istituzioni

Fonti