AntiSD: Nuovo Metodo RL Inverte l'Autodistillazione per il Ragionamento Matematico
Viene proposto un nuovo metodo di apprendimento per rinforzo chiamato Anti-Self-Distillation (AntiSD) per migliorare il ragionamento nei modelli linguistici di grandi dimensioni, specificamente per compiti matematici. L'approccio affronta i fallimenti nell'autodistillazione on-policy, dove un modello studente apprende da una copia di sé stesso condizionata da un contesto privilegiato come soluzioni verificate. Utilizzando l'analisi dell'informazione mutua puntuale, i ricercatori hanno scoperto che il contesto privilegiato gonfia la confidenza dell'insegnante sui token strutturali (es. connettivi, affermazioni verificabili) e la sgonfia sui token di deliberazione (es. 'Aspetta', 'Supponiamo', 'Forse') cruciali per la ricerca multi-step. AntiSD inverte la direzione della divergenza, ascendendo anziché discendendo tra studente e insegnante, producendo un vantaggio naturalmente limitato per token. Un gate attivato dall'entropia disabilita il termine quando l'entropia dell'insegnante collassa. Il metodo è dettagliato nell'articolo arXiv 2605.11609, scritto da ricercatori di un'istituzione non specificata.
Fatti principali
- AntiSD sta per Anti-Self-Distillation
- Il metodo mira all'apprendimento per rinforzo del ragionamento matematico
- L'autodistillazione on-policy usa una copia dello studente come insegnante
- Il contesto privilegiato include soluzioni verificate o feedback
- L'analisi dell'informazione mutua puntuale ha identificato problemi a livello di token
- I token strutturali (connettivi, affermazioni verificabili) ottengono confidenza gonfiata
- I token di deliberazione ('Aspetta', 'Supponiamo', 'Forse') ottengono confidenza sgonfiata
- AntiSD ascende la divergenza invece di discenderla
- Un gate attivato dall'entropia previene il collasso
- Articolo pubblicato su arXiv con ID 2605.11609
Entità
Istituzioni
- arXiv