Studio Identifica il Fine-Tuning come Fonte delle Allucinazioni dei LLM, Propone Metodi di Mitigazione
Un documento di ricerca pubblicato su arXiv (identificatore 2604.15574v1) indaga il motivo per cui i grandi modelli linguistici generano affermazioni fattualmente errate, identificando il fine-tuning supervisionato (SFT) come un fattore chiave. Il lavoro dimostra che l'esposizione a nuove informazioni fattuali durante l'SFT può degradare le conoscenze acquisite nella pre-addestramento, portando a un aumento delle allucinazioni. Per affrontare questo problema, i ricercatori propongono un metodo SFT basato sull'auto-distillazione, progettato per regolarizzare la deriva della distribuzione di output, consentendo un apprendimento efficace di nuovi fatti riducendo al minimo gli errori relativi alle conoscenze preesistenti. Il documento esplora anche un approccio alternativo per scenari in cui l'acquisizione di nuove conoscenze non è necessaria: sopprimere la plasticità fattuale congelando specifici gruppi di parametri. Questo metodo può mantenere le prestazioni del compito riducendo i tassi di allucinazione. Inoltre, la ricerca esamina i meccanismi sottostanti responsabili delle allucinazioni indotte dal fine-tuning, inquadrando il problema attraverso la lente della letteratura sull'apprendimento continuo. I risultati suggeriscono che strumenti consolidati dell'apprendimento continuo possono essere applicati per mitigare questi errori, trattando le allucinazioni come un sottoprodotto della degradazione delle conoscenze durante l'addestramento.
Fatti principali
- I grandi modelli linguistici sono inclini a generare allucinazioni con affermazioni fattualmente errate.
- Il fine-tuning supervisionato (SFT) è identificato come una fonte chiave di questi errori.
- L'esposizione a nuove informazioni fattuali durante l'SFT può aumentare le allucinazioni riguardanti le conoscenze del pre-addestramento.
- La ricerca propone un metodo SFT basato sull'auto-distillazione per mitigare le allucinazioni.
- Questo metodo regolarizza la deriva della distribuzione di output per facilitare l'apprendimento fattuale.
- Un approccio alternativo congela i gruppi di parametri per sopprimere la plasticità fattuale dove l'acquisizione di nuove conoscenze non è necessaria.
- Il congelamento dei parametri può preservare le prestazioni del compito riducendo le allucinazioni.
- Il documento indaga il meccanismo dietro le allucinazioni indotte dall'SFT.
Entità
Istituzioni
- arXiv