ANCORA: Framework di Auto-Gioco per Ragionamento Verificabile Senza Supervisione Umana
I ricercatori propongono ANCORA, un nuovo framework che passa dall'imparare a rispondere all'imparare a porre domande. Il sistema alterna un Proponente che genera nuove specifiche e un Risolutore che produce soluzioni verificate, consentendo l'auto-miglioramento senza supervisione umana. I meccanismi chiave includono un aggiornamento a due livelli basato su vantaggi relativi al gruppo, un SFT auto-distillato iterativo che proietta su una varietà di output validi e un DAG di Curriculum guidato da UCB che cresce solo attraverso specifiche verificate. Questi stabilizzatori impediscono il collasso del Proponente sotto feedback sparsi del verificatore. Il lavoro è dettagliato in arXiv:2604.27644.
Fatti principali
- ANCORA è un framework a curriculum ancorato per il ragionamento verificabile.
- Alterna tra un Proponente e un Risolutore.
- Utilizza un aggiornamento a due livelli basato su vantaggi relativi al gruppo.
- Impiega SFT auto-distillato iterativo e DAG di Curriculum guidato da UCB.
- Progettato per prevenire il collasso del Proponente da feedback sparsi.
- Opera senza supervisione umana.
- Pubblicato su arXiv con ID 2604.27644.
- Rappresenta un cambiamento di paradigma dall'imparare a rispondere all'imparare a porre domande.
Entità
Istituzioni
- arXiv