RSAT: L'Attribuzione Strutturata Migliora il Ragionamento su Tabelle nei Modelli Linguistici di Piccole Dimensioni
I ricercatori hanno introdotto RSAT, un metodo che addestra modelli linguistici di piccole dimensioni (SLM) da 1 a 8 miliardi di parametri a produrre un ragionamento passo-passo con citazioni a livello di cella quando rispondono a domande su tabelle. L'approccio consiste in due fasi: la Fase 1 utilizza il fine-tuning supervisionato (SFT) per insegnare un formato di output JSON strutturato a partire da tracce di ragionamento verificate, mentre la Fase 2 applica l'ottimizzazione delle politiche relative di gruppo (GRPO) con un premio composito incentrato sulla fedeltà basata su NLI, la validità delle citazioni e la parsimonia. Testato su sei modelli di due famiglie—Qwen 2.5 (1,5B, 3B, 7B) e Llama 3 (1B, 3B, 8B)—RSAT ha migliorato la fedeltà di 3,7 volte rispetto al solo SFT (da 0,224 a 0,826), con una validità delle citazioni quasi perfetta di 0,992. I metodi di attribuzione post-hoc sono crollati al di sotto del 13% di successo nel formato, dimostrando che l'attribuzione deve essere integrata nel ragionamento piuttosto che applicata a posteriori. Studi di ablazione hanno mostrato che il premio di fedeltà è essenziale: rimuovendolo, la fedeltà è scesa da 0,97 a 0,03.
Fatti principali
- 1. RSAT addestra modelli linguistici di piccole dimensioni (1-8B parametri) per il ragionamento su tabelle con citazioni a livello di cella.
- 2. Fase 1: SFT insegna un formato di output JSON strutturato a partire da tracce di ragionamento verificate.
- 3. Fase 2: GRPO ottimizza un premio composito che include fedeltà basata su NLI, validità delle citazioni e parsimonia.
- 4. Testato sui modelli Qwen 2.5 (1,5B, 3B, 7B) e Llama 3 (1B, 3B, 8B).
- 5. La fedeltà è migliorata di 3,7× rispetto al solo SFT (da 0,224 a 0,826).
- 6. La validità delle citazioni ha raggiunto un valore quasi perfetto di 0,992.
- 7. I metodi di attribuzione post-hoc hanno avuto meno del 13% di successo nel formato.
- 8. La rimozione del premio di fedeltà ha ridotto la fedeltà da 0,97 a 0,03.
Entità
Istituzioni
- Qwen
- Llama