Il Metodo AtManRL Utilizza l'Attenzione Differenziabile per Migliorare la Fedeltà del Ragionamento nei Modelli Linguistici di Grande Dimensione
Una nuova tecnica di ricerca denominata AtManRL affronta il problema di garantire che il ragionamento a catena di pensiero nei modelli linguistici di grande dimensione influenzi effettivamente i loro output finali, anziché essere semplicemente presente accanto ad essi. Questo metodo, sviluppato attraverso l'apprendimento per rinforzo, addestra una maschera di attenzione additiva per individuare i token essenziali all'interno dei percorsi di ragionamento, generando un segnale di ricompensa di salienza che incoraggia i modelli a produrre ragionamenti che influenzano le previsioni. Il modello Llama-3.2-3B-Instruct è stato testato utilizzando i benchmark GSM8K e MMLU. AtManRL combina ricompense basate sulla salienza e sugli esiti all'interno del framework GRPO per ottimizzare sia l'accuratezza che l'interpretabilità. Utilizzando la manipolazione differenziabile dell'attenzione, questo approccio mira a migliorare la fedeltà dei processi di ragionamento rispetto ai meccanismi che generano le risposte. La ricerca è stata pubblicata su arXiv con l'identificatore 2604.16158v1.
Fatti principali
- AtManRL è un metodo per migliorare la fedeltà del ragionamento nei modelli linguistici di grande dimensione
- Utilizza la manipolazione differenziabile dell'attenzione attraverso l'apprendimento per rinforzo
- L'approccio addestra una maschera di attenzione additiva per identificare i token di ragionamento cruciali
- Crea un segnale di ricompensa di salienza per incoraggiare ragionamenti effettivamente influenti
- Si integra con ricompense basate sugli esiti nel framework GRPO
- Esperimenti condotti sui benchmark GSM8K e MMLU
- Testato con il modello Llama-3.2-3B-Instruct
- Ricerca annunciata su arXiv con l'identificatore 2604.16158v1
Entità
Istituzioni
- arXiv