AntiSD: Nuovo Metodo RL Inverte l'Autodistillazione per il Ragionamento Matematico

ai-technology · 2026-05-13

Viene proposto un nuovo metodo di apprendimento per rinforzo chiamato Anti-Self-Distillation (AntiSD) per migliorare il ragionamento nei modelli linguistici di grandi dimensioni, specificamente per compiti matematici. L'approccio affronta i fallimenti nell'autodistillazione on-policy, dove un modello studente apprende da una copia di sé stesso condizionata da un contesto privilegiato come soluzioni verificate. Utilizzando l'analisi dell'informazione mutua puntuale, i ricercatori hanno scoperto che il contesto privilegiato gonfia la confidenza dell'insegnante sui token strutturali (es. connettivi, affermazioni verificabili) e la sgonfia sui token di deliberazione (es. 'Aspetta', 'Supponiamo', 'Forse') cruciali per la ricerca multi-step. AntiSD inverte la direzione della divergenza, ascendendo anziché discendendo tra studente e insegnante, producendo un vantaggio naturalmente limitato per token. Un gate attivato dall'entropia disabilita il termine quando l'entropia dell'insegnante collassa. Il metodo è dettagliato nell'articolo arXiv 2605.11609, scritto da ricercatori di un'istituzione non specificata.

Fatti principali

AntiSD sta per Anti-Self-Distillation
Il metodo mira all'apprendimento per rinforzo del ragionamento matematico
L'autodistillazione on-policy usa una copia dello studente come insegnante
Il contesto privilegiato include soluzioni verificate o feedback
L'analisi dell'informazione mutua puntuale ha identificato problemi a livello di token
I token strutturali (connettivi, affermazioni verificabili) ottengono confidenza gonfiata
I token di deliberazione ('Aspetta', 'Supponiamo', 'Forse') ottengono confidenza sgonfiata
AntiSD ascende la divergenza invece di discenderla
Un gate attivato dall'entropia previene il collasso
Articolo pubblicato su arXiv con ID 2605.11609

AntiSD: Nuovo Metodo RL Inverte l'Autodistillazione per il Ragionamento Matematico

Fatti principali

Entità

Istituzioni

Fonti