ANCORA: Framework di Auto-Gioco per Ragionamento Verificabile Senza Supervisione Umana

other · 2026-05-01

I ricercatori propongono ANCORA, un nuovo framework che passa dall'imparare a rispondere all'imparare a porre domande. Il sistema alterna un Proponente che genera nuove specifiche e un Risolutore che produce soluzioni verificate, consentendo l'auto-miglioramento senza supervisione umana. I meccanismi chiave includono un aggiornamento a due livelli basato su vantaggi relativi al gruppo, un SFT auto-distillato iterativo che proietta su una varietà di output validi e un DAG di Curriculum guidato da UCB che cresce solo attraverso specifiche verificate. Questi stabilizzatori impediscono il collasso del Proponente sotto feedback sparsi del verificatore. Il lavoro è dettagliato in arXiv:2604.27644.

Fatti principali

ANCORA è un framework a curriculum ancorato per il ragionamento verificabile.
Alterna tra un Proponente e un Risolutore.
Utilizza un aggiornamento a due livelli basato su vantaggi relativi al gruppo.
Impiega SFT auto-distillato iterativo e DAG di Curriculum guidato da UCB.
Progettato per prevenire il collasso del Proponente da feedback sparsi.
Opera senza supervisione umana.
Pubblicato su arXiv con ID 2604.27644.
Rappresenta un cambiamento di paradigma dall'imparare a rispondere all'imparare a porre domande.

ANCORA: Framework di Auto-Gioco per Ragionamento Verificabile Senza Supervisione Umana

Fatti principali

Entità

Istituzioni

Fonti