Proposto un Framework di Regolarizzazione Entropica Adattativa per Migliorare il Ragionamento dei Modelli Linguistici di Grandi Dimensioni nell'Apprendimento per Rinforzo

ai-technology · 2026-04-20

Un nuovo articolo di ricerca propone la Regolarizzazione Entropica Adattativa (AER) per affrontare il collasso dell'entropia delle politiche nell'Apprendimento per Rinforzo con Ricompense Verificabili (RLVR) per Modelli Linguistici di Grandi Dimensioni. Il lavoro sostiene che il potenziale della regolarizzazione entropica sia stato sottovalutato a causa della sensibilità ai coefficienti fissi. L'analisi rivela che compiti di difficoltà variabile richiedono diverse intensità di esplorazione, e un'esplorazione bilanciata necessita che l'entropia delle politiche venga mantenuta entro un intervallo moderato al di sotto dei livelli iniziali. RLVR è emerso come un paradigma chiave per migliorare la capacità di ragionamento nei LLM, ma l'addestramento spesso soffre di politiche eccessivamente deterministiche che ostacolano l'esplorazione. Il framework regola dinamicamente la regolarizzazione per ottenere prestazioni più stabili su compiti e modelli diversi. Questo approccio mira a migliorare le prestazioni di ragionamento prevenendo il collasso dell'entropia durante l'addestramento. La ricerca è stata pubblicata su arXiv con identificatore arXiv:2510.10959v3.

Fatti principali

L'Apprendimento per Rinforzo con Ricompense Verificabili (RLVR) è un paradigma chiave per migliorare il ragionamento dei LLM
L'addestramento RLVR spesso soffre di collasso dell'entropia delle politiche, rendendole eccessivamente deterministiche
L'efficacia della regolarizzazione entropica è altamente sensibile ai coefficienti fissi
Compiti di difficoltà variabile richiedono distinte intensità di esplorazione
Un'esplorazione bilanciata richiede che l'entropia delle politiche venga mantenuta entro un intervallo moderato al di sotto del livello iniziale
Il framework di Regolarizzazione Entropica Adattativa (AER) regola dinamicamente la regolarizzazione
La ricerca sostiene che il potenziale della regolarizzazione entropica sia stato ampiamente sottovalutato
L'articolo è stato pubblicato su arXiv con identificatore arXiv:2510.10959v3

Proposto un Framework di Regolarizzazione Entropica Adattativa per Migliorare il Ragionamento dei Modelli Linguistici di Grandi Dimensioni nell'Apprendimento per Rinforzo

Fatti principali

Entità

Istituzioni

Fonti