Sicurezza Fragile nei Modelli Linguistici Allineati: Valutazione con Cambio di Contesto
Un nuovo studio da arXiv (2605.27851) introduce il concetto di 'sicurezza fragile' nei modelli linguistici allineati, dove i modelli aderiscono a regole di sicurezza rigide anche quando un aggiornamento situazionale rende l'azione nominalmente sicura dannosa. I ricercatori propongono un metodo di valutazione con cambio di contesto, testando 12 modelli su un benchmark di sicurezza (PacifAIst) e due controlli di senso comune. I risultati chiave includono: tutti i 12 modelli mostrano un divario tra sicurezza e senso comune (media +17,4 punti percentuali); l'accuratezza di base non riesce a prevedere la fragilità, con tassi che vanno dal 13,7% al 90,0% tra i modelli con accuratezza di base superiore al 90%; i fallimenti derivano da un override delle politiche piuttosto che da incomprensione, poiché i modelli riconoscono i cambiamenti di contesto ma persistono attraverso tre meccanismi distinti che variano per tipo di aggiornamento e famiglia di modelli. Lo studio include una sonda revisionata manualmente dei fallimenti catastrofici. Questa ricerca evidenzia l'inadeguatezza dei soli punteggi dei benchmark di sicurezza per la prontezza al deployment.
Fatti principali
- Lo studio introduce la 'sicurezza fragile' nei modelli linguistici allineati.
- La valutazione con cambio di contesto testa 12 modelli sul benchmark PacifAIst.
- Divario medio sicurezza-senso comune di +17,4 punti percentuali su tutti i modelli.
- I tassi di fragilità vanno dal 13,7% al 90,0% tra i modelli con accuratezza di base >90%.
- I fallimenti sono dovuti a override delle politiche, non a incomprensione.
- Identificati tre meccanismi di persistenza distinti.
- Condotta una sonda revisionata manualmente dei fallimenti catastrofici.
- Pubblicato su arXiv con ID 2605.27851.
Entità
Istituzioni
- arXiv