Il Metodo AtManRL Utilizza l'Attenzione Differenziabile per Migliorare la Fedeltà del Ragionamento nei Modelli Linguistici di Grande Dimensione

ai-technology · 2026-04-20

Una nuova tecnica di ricerca denominata AtManRL affronta il problema di garantire che il ragionamento a catena di pensiero nei modelli linguistici di grande dimensione influenzi effettivamente i loro output finali, anziché essere semplicemente presente accanto ad essi. Questo metodo, sviluppato attraverso l'apprendimento per rinforzo, addestra una maschera di attenzione additiva per individuare i token essenziali all'interno dei percorsi di ragionamento, generando un segnale di ricompensa di salienza che incoraggia i modelli a produrre ragionamenti che influenzano le previsioni. Il modello Llama-3.2-3B-Instruct è stato testato utilizzando i benchmark GSM8K e MMLU. AtManRL combina ricompense basate sulla salienza e sugli esiti all'interno del framework GRPO per ottimizzare sia l'accuratezza che l'interpretabilità. Utilizzando la manipolazione differenziabile dell'attenzione, questo approccio mira a migliorare la fedeltà dei processi di ragionamento rispetto ai meccanismi che generano le risposte. La ricerca è stata pubblicata su arXiv con l'identificatore 2604.16158v1.

Fatti principali

AtManRL è un metodo per migliorare la fedeltà del ragionamento nei modelli linguistici di grande dimensione
Utilizza la manipolazione differenziabile dell'attenzione attraverso l'apprendimento per rinforzo
L'approccio addestra una maschera di attenzione additiva per identificare i token di ragionamento cruciali
Crea un segnale di ricompensa di salienza per incoraggiare ragionamenti effettivamente influenti
Si integra con ricompense basate sugli esiti nel framework GRPO
Esperimenti condotti sui benchmark GSM8K e MMLU
Testato con il modello Llama-3.2-3B-Instruct
Ricerca annunciata su arXiv con l'identificatore 2604.16158v1

Il Metodo AtManRL Utilizza l'Attenzione Differenziabile per Migliorare la Fedeltà del Ragionamento nei Modelli Linguistici di Grande Dimensione

Fatti principali

Entità

Istituzioni

Fonti