ARTFEED — Contemporary Art Intelligence

ANCORA: Framework di Auto-Gioco per Ragionamento Verificabile Senza Supervisione Umana

other · 2026-05-01

I ricercatori propongono ANCORA, un nuovo framework che passa dall'imparare a rispondere all'imparare a porre domande. Il sistema alterna un Proponente che genera nuove specifiche e un Risolutore che produce soluzioni verificate, consentendo l'auto-miglioramento senza supervisione umana. I meccanismi chiave includono un aggiornamento a due livelli basato su vantaggi relativi al gruppo, un SFT auto-distillato iterativo che proietta su una varietà di output validi e un DAG di Curriculum guidato da UCB che cresce solo attraverso specifiche verificate. Questi stabilizzatori impediscono il collasso del Proponente sotto feedback sparsi del verificatore. Il lavoro è dettagliato in arXiv:2604.27644.

Fatti principali

  • ANCORA è un framework a curriculum ancorato per il ragionamento verificabile.
  • Alterna tra un Proponente e un Risolutore.
  • Utilizza un aggiornamento a due livelli basato su vantaggi relativi al gruppo.
  • Impiega SFT auto-distillato iterativo e DAG di Curriculum guidato da UCB.
  • Progettato per prevenire il collasso del Proponente da feedback sparsi.
  • Opera senza supervisione umana.
  • Pubblicato su arXiv con ID 2604.27644.
  • Rappresenta un cambiamento di paradigma dall'imparare a rispondere all'imparare a porre domande.

Entità

Istituzioni

  • arXiv

Fonti