TLPO: Ottimizzazione delle Politiche a Livello di Token per Risolvere la Confusione Linguistica nei LLM

ai-technology · 2026-04-30

Un nuovo framework di fine-tuning chiamato Token-Level Policy Optimization (TLPO) è stato introdotto dai ricercatori per affrontare la confusione linguistica nei modelli linguistici di grandi dimensioni (LLM). A differenza delle precedenti tecniche a livello di sequenza come DPO, ORPO e GRPO, che modificano intere risposte e possono compromettere le prestazioni generali, TLPO si concentra su aggiornamenti localizzati a livello di token. Identifica le posizioni soggette a errori, valuta token candidati alternativi e perfeziona la politica con un obiettivo specifico per minimizzare gli output che portano a confusione. Questa strategia mirata allevia con successo la confusione linguistica mantenendo le capacità generali del modello. Ulteriori dettagli sono disponibili su arXiv:2604.26553v1.

Fatti principali

TLPO è un framework di fine-tuning a livello di token per mitigare la confusione linguistica nei LLM.
Metodi precedenti come DPO, ORPO e GRPO operano a livello di sequenza e possono degradare le capacità generali.
TLPO identifica le posizioni soggette a errori ed esplora token candidati alternativi.
La politica viene aggiornata utilizzando un obiettivo su misura per sopprimere gli output che inducono errori.
L'intervento selettivo consente una mitigazione efficace senza compromettere le capacità generali.
L'articolo è disponibile su arXiv con ID 2604.26553v1.
La confusione linguistica si riferisce al fallimento dei LLM nel generare risposte coerenti nella lingua prevista.
TLPO fornisce un'alternativa più granulare al fine-tuning a livello di sequenza.

TLPO: Ottimizzazione delle Politiche a Livello di Token per Risolvere la Confusione Linguistica nei LLM

Fatti principali

Entità

Istituzioni

Fonti