GRACE: Metodo di Allineamento del Gradiente per la Cura Efficiente di Dati di Ragionamento

other · 2026-05-14

Un team di ricercatori ha presentato GRACE, una tecnica innovativa per selezionare dati di ragionamento di alta qualità dopo l'addestramento. A differenza dei metodi attuali che trattano tutte le parti di un campione allo stesso modo, GRACE considera il ragionamento come una serie di eventi di ottimizzazione. Valuta ogni passo in base a quanto si allinea con la direzione focalizzata sulla risposta e alla sua coerenza con i passi precedenti. Assegnando un punteggio a questi singoli passi, GRACE genera un valore per l'intero campione, basandosi sui segnali interni del modello piuttosto che su ricompense o annotazioni esterne. Inoltre, utilizza un proxy del gradiente a livello di rappresentazione per determinare l'allineamento attraverso un singolo passaggio in avanti. Questo metodo è stato applicato nel post-addestramento per Qwen3-VL-2B-Instruct utilizzando il dataset MMathCoT-1M.

Fatti principali

GRACE assegna un punteggio a ogni passo in una traccia di ragionamento tramite allineamento del gradiente e coerenza.
Non sono richiesti modelli di ricompensa esterni o annotazioni dei passi.
Un proxy del gradiente a livello di rappresentazione stima l'allineamento dei passi in un singolo passaggio in avanti.
Il metodo è stato applicato per il post-addestramento di Qwen3-VL-2B-Instruct su MMathCoT-1M.
I pipeline esistenti trattano tutti i passi come ugualmente preziosi.
I punteggi a livello di passo vengono aggregati in un valore a livello di campione.
GRACE utilizza solo i segnali di ottimizzazione interni del modello.
L'approccio è progettato per una selezione efficiente di sottoinsiemi.

Entità

—

Fonti

arXiv cs.AI — 2026-05-14