EVOLM: Modelli Linguistici Auto-Miglioranti tramite Rubriche Co-Evolute

ai-technology · 2026-05-07

Un nuovo metodo chiamato EVOLM consente ai modelli linguistici di auto-migliorarsi generando i propri criteri di valutazione. Gli attuali metodi di post-addestramento si basano su supervisione esterna—annotazioni umane, API proprietarie o modelli di ricompensa scalari—ciascuno con limiti intrinseci. Il giudizio umano non può superare le capacità umane, le API creano dipendenze e le ricompense verificabili si applicano solo a domini con risposte oggettive. EVOLM struttura la capacità valutativa del modello in rubriche discriminative esplicite, che fungono da segnali di addestramento. Il metodo alterna l'addestramento di un generatore di rubriche che produce criteri specifici per istanza ottimizzati per l'utilità discriminativa, e l'uso di tali rubriche per migliorare il modello. Questo approccio consente un auto-miglioramento che scala con il modello stesso, bypassando i limiti esterni. L'articolo è disponibile su arXiv con riferimento 2605.03871.

Fatti principali

EVOLM è un metodo di post-addestramento per modelli linguistici.
Utilizza rubriche discriminative auto-generate come segnali di addestramento.
I metodi attuali si basano su annotazioni umane, API proprietarie o modelli di ricompensa scalari.
Il giudizio umano non può supervisionare capacità superiori alle proprie.
Le API proprietarie creano dipendenze.
Le ricompense verificabili coprono solo domini con risposte oggettive.
EVOLM addestra alternativamente un generatore di rubriche e il modello.
L'articolo è su arXiv: 2605.03871.

EVOLM: Modelli Linguistici Auto-Miglioranti tramite Rubriche Co-Evolute

Fatti principali

Entità

Istituzioni

Fonti