ARTFEED — Contemporary Art Intelligence

Nuovo metodo stima i rischi di coda negli output dei modelli linguistici

ai-technology · 2026-04-27

È stata introdotta una nuova tecnica per valutare la probabilità di output dannosi poco frequenti generati dai modelli linguistici. Dato che questi modelli vengono utilizzati miliardi di volte al giorno, anche i comportamenti negativi più improbabili possono manifestarsi. Le attuali valutazioni di sicurezza si concentrano principalmente sulle distribuzioni degli input, trascurando le caratteristiche probabilistiche dei modelli e i loro comportamenti di output di coda. Il nuovo metodo utilizza il campionamento per importanza, generando versioni non sicure del modello target per stimare efficacemente le probabilità di output dannosi, evitando la necessità di un campionamento esaustivo.

Fatti principali

  • arXiv:2604.22167
  • I modelli linguistici sono implementati su scala di popolazione
  • Gli output dannosi sono rari ma si verificano a causa dell'elevato volume di query
  • Le attuali valutazioni di sicurezza trascurano il comportamento di output di coda
  • Il metodo proposto utilizza il campionamento per importanza
  • Vengono create versioni non sicure del modello target per la stima
  • Il metodo consente una stima efficiente in termini di campioni
  • Focus sul rischio di coda negli output dei modelli linguistici

Entità

Istituzioni

  • arXiv

Fonti