Nuovo metodo stima i rischi di coda negli output dei modelli linguistici

ai-technology · 2026-04-27

È stata introdotta una nuova tecnica per valutare la probabilità di output dannosi poco frequenti generati dai modelli linguistici. Dato che questi modelli vengono utilizzati miliardi di volte al giorno, anche i comportamenti negativi più improbabili possono manifestarsi. Le attuali valutazioni di sicurezza si concentrano principalmente sulle distribuzioni degli input, trascurando le caratteristiche probabilistiche dei modelli e i loro comportamenti di output di coda. Il nuovo metodo utilizza il campionamento per importanza, generando versioni non sicure del modello target per stimare efficacemente le probabilità di output dannosi, evitando la necessità di un campionamento esaustivo.

Fatti principali

arXiv:2604.22167
I modelli linguistici sono implementati su scala di popolazione
Gli output dannosi sono rari ma si verificano a causa dell'elevato volume di query
Le attuali valutazioni di sicurezza trascurano il comportamento di output di coda
Il metodo proposto utilizza il campionamento per importanza
Vengono create versioni non sicure del modello target per la stima
Il metodo consente una stima efficiente in termini di campioni
Focus sul rischio di coda negli output dei modelli linguistici

Nuovo metodo stima i rischi di coda negli output dei modelli linguistici

Fatti principali

Entità

Istituzioni

Fonti