Benchmark MOOD testa i monitor LLM per i fallimenti di allineamento fuori distribuzione
I ricercatori hanno introdotto un benchmark chiamato Misalignment Out Of Distribution (MOOD) per studiare sistematicamente se le pipeline di monitoraggio degli LLM possono rilevare fallimenti di allineamento fuori distribuzione (OOD). Il benchmark include un set di addestramento ristretto utilizzato per addestrare i monitor, più sette set di test con diversi fallimenti di allineamento al di fuori della distribuzione di addestramento. I risultati mostrano che i modelli di guardia (classificatori di sicurezza) spesso non riescono a generalizzare a scenari OOD. Per affrontare questo problema, lo studio propone di combinare i modelli di guardia con rilevatori OOD, testando quattro tipi e scoprendo che una combinazione con la distanza di Mahalanobis funziona meglio. Il lavoro mira a migliorare il rilevamento di fallimenti di sicurezza causati da prompt o risposte insolite non previste dagli sviluppatori.
Fatti principali
- Introdotto il benchmark MOOD per studiare il rilevamento di fallimenti di allineamento OOD negli LLM
- Include un set di addestramento ristretto e sette set di test OOD
- I modelli di guardia non riescono a generalizzare a scenari OOD
- Soluzione proposta: combinare modelli di guardia con rilevatori OOD
- Combinazione basata sulla distanza di Mahalanobis trovata efficace
- Focus sui fallimenti di sicurezza da pattern insoliti di prompt/risposta
- Numero arXiv: 2605.21602
- La ricerca affronta i limiti dei classificatori di sicurezza standard
Entità
Istituzioni
- arXiv