REALISTA: Nuovo Metodo di Attacco Induce Allucinazioni nei LLM
Un gruppo di ricercatori ha sviluppato REALISTA, un framework innovativo volto a generare prompt avversari realistici in grado di innescare allucinazioni nei modelli linguistici di grandi dimensioni (LLM). Considerano il processo di induzione di queste allucinazioni come un problema di ottimizzazione vincolata, concentrandosi sulla creazione di prompt semanticamente simili a input utente innocui. Le tecniche esistenti sono insufficienti: mentre gli attacchi a prompt discreti mantengono intatto il significato, non sono molto vari, e gli attacchi continui nello spazio latente possono produrre riformulazioni senza senso. REALISTA stabilisce un dizionario personalizzato di percorsi di modifica validi collegati a riformulazioni semanticamente coerenti e ottimizza vettori latenti continui per scatenare allucinazioni. Questa ricerca è dettagliata nel preprint arXiv 2605.12813.
Fatti principali
- REALISTA è un framework di attacco realistico nello spazio latente.
- Induce allucinazioni nei modelli linguistici di grandi dimensioni.
- L'induzione di allucinazioni è inquadrata come un problema di ottimizzazione vincolata.
- L'obiettivo è trovare prompt avversari semanticamente coerenti equivalenti a prompt benigni.
- Gli attacchi basati su prompt discreti cercano in un insieme limitato di variazioni di prompt.
- Gli attacchi continui nello spazio latente spesso si decodificano in riformulazioni non valide.
- REALISTA utilizza un dizionario dipendente dall'input di direzioni di modifica valide.
- Il preprint è disponibile su arXiv con ID 2605.12813.
Entità
Istituzioni
- arXiv