Il dropout del vocabolario previene il collasso della diversità nella co-evoluzione dei LLM
Un nuovo metodo chiamato dropout del vocabolario affronta il collasso della diversità nel self-play co-evolutivo per i grandi modelli linguistici. In questa configurazione, un modello (il proponente) genera problemi e un altro (il risolutore) li risolve, ma il proponente spesso converge su un insieme ristretto di problemi. Il dropout del vocabolario applica una maschera casuale ai logit di output del proponente durante l'addestramento e la generazione, impedendo la fissazione su specifiche sequenze di token. Esperimenti con Qwen3-4B e Qwen3-8B sul ragionamento matematico tramite R-Zero mostrano una diversità sostenuta in termini lessicali, semantici e funzionali, con miglioramenti del risolutore in media di +4,4 punti a 8B.
Fatti principali
- Il dropout del vocabolario è una maschera casuale applicata ai logit di output del proponente.
- Impedisce al proponente di bloccarsi su sequenze di token fisse.
- La maschera è dura e non stazionaria.
- Gli esperimenti hanno utilizzato i modelli Qwen3-4B e Qwen3-8B.
- L'addestramento è stato sul ragionamento matematico tramite R-Zero.
- La diversità è stata mantenuta in termini lessicali, semantici e funzionali.
- I miglioramenti del risolutore sono stati in media di +4,4 punti a 8B.
- Il metodo è leggero e non richiede supervisione umana.
Entità
Istituzioni
- arXiv