Disimparare Adattivo Sopprime le Allucinazioni dei LLM nella Generazione di Codice
Un nuovo framework chiamato Adaptive Unlearning (AU) sopprime chirurgicamente le allucinazioni nei modelli linguistici di grandi dimensioni (LLM) già implementati, senza costosi riaddestramenti. Le allucinazioni—output plausibili ma fattualmente errati—rappresentano una vulnerabilità critica nella catena di fornitura nella generazione di codice, dove i modelli raccomandano pacchetti software inesistenti. Gli aggressori possono registrare questi pacchetti fittizi su registri pubblici con payload malevoli, una classe di attacco nota come slopsquatting. I metodi di mitigazione esistenti degradano l'utilità del modello o richiedono un insieme di dimenticanza pre-specificato, il che è impraticabile per lo spazio illimitato delle allucinazioni. AU opera dopo l'implementazione, mirando a specifici modi di fallimento preservando le prestazioni complessive. L'articolo è pubblicato su arXiv (2605.01047) e affronta una sfida chiave nella sicurezza dell'IA per agenti di codice autonomi.
Fatti principali
- Adaptive Unlearning (AU) è un framework post-implementazione per sopprimere le allucinazioni dei LLM.
- Le allucinazioni nella generazione di codice creano vulnerabilità nella catena di fornitura tramite attacchi slopsquatting.
- Gli approcci esistenti causano un grave degrado dell'utilità del modello o si basano su un insieme di dimenticanza pre-specificato.
- AU non richiede un riaddestramento completo e mira a specifici modi di fallimento.
- L'articolo è disponibile su arXiv con identificatore 2605.01047.
- Le allucinazioni sono definite come output che suonano plausibili ma sono fattualmente errati.
- Lo slopsquatting comporta la registrazione di pacchetti fittizi su registri pubblici con payload malevoli.
- Il framework affronta lo spazio illimitato delle allucinazioni.
Entità
Istituzioni
- arXiv