TLPO: Ottimizzazione delle Politiche a Livello di Token per Risolvere la Confusione Linguistica nei LLM
Un nuovo framework di fine-tuning chiamato Token-Level Policy Optimization (TLPO) è stato introdotto dai ricercatori per affrontare la confusione linguistica nei modelli linguistici di grandi dimensioni (LLM). A differenza delle precedenti tecniche a livello di sequenza come DPO, ORPO e GRPO, che modificano intere risposte e possono compromettere le prestazioni generali, TLPO si concentra su aggiornamenti localizzati a livello di token. Identifica le posizioni soggette a errori, valuta token candidati alternativi e perfeziona la politica con un obiettivo specifico per minimizzare gli output che portano a confusione. Questa strategia mirata allevia con successo la confusione linguistica mantenendo le capacità generali del modello. Ulteriori dettagli sono disponibili su arXiv:2604.26553v1.
Fatti principali
- TLPO è un framework di fine-tuning a livello di token per mitigare la confusione linguistica nei LLM.
- Metodi precedenti come DPO, ORPO e GRPO operano a livello di sequenza e possono degradare le capacità generali.
- TLPO identifica le posizioni soggette a errori ed esplora token candidati alternativi.
- La politica viene aggiornata utilizzando un obiettivo su misura per sopprimere gli output che inducono errori.
- L'intervento selettivo consente una mitigazione efficace senza compromettere le capacità generali.
- L'articolo è disponibile su arXiv con ID 2604.26553v1.
- La confusione linguistica si riferisce al fallimento dei LLM nel generare risposte coerenti nella lingua prevista.
- TLPO fornisce un'alternativa più granulare al fine-tuning a livello di sequenza.
Entità
Istituzioni
- arXiv