SRPO: L'assegnazione del credito a livello di token migliora il ragionamento multimodale

ai-technology · 2026-05-11

Una recente pubblicazione su arXiv (2605.07274) presenta Structured Role-Aware Policy Optimization (SRPO), una tecnica che migliora l'apprendimento per rinforzo da ricompense verificabili (RLVR) specificamente per il ragionamento multimodale nei grandi modelli visione-linguaggio (LVLM). I metodi tradizionali di RLVR, come Group Relative Policy Optimization (GRPO), forniscono ricompense a livello di sequenza che non differenziano i ruoli dei vari token, lasciando incertezza sul fatto che una risposta corretta sia supportata da informazioni visive pertinenti. SRPO risolve questo problema suddividendo gli output strutturati in token di percezione (per l'estrazione di prove visive) e token di ragionamento (per la derivazione della risposta). Trasforma i vantaggi della GRPO a livello di sequenza in vantaggi a livello di token consapevoli del ruolo, facilitando un'assegnazione del credito più accurata, preservando al contempo l'integrità dell'architettura del modello originale.

Fatti principali

Titolo del paper: Structured Role-Aware Policy Optimization for Multimodal Reasoning
Identificatore arXiv: 2605.07274
Tipo di annuncio: nuovo
RLVR con GRPO viene utilizzato per migliorare il ragionamento nei LVLM
Le ricompense a livello di sequenza non distinguono i ruoli funzionali dei token
SRPO scompone le risposte in token di percezione e di ragionamento
SRPO perfeziona il vantaggio della GRPO a livello di sequenza in vantaggi a livello di token
Obiettivo: garantire che le risposte corrette siano supportate da prove visive

SRPO: L'assegnazione del credito a livello di token migliora il ragionamento multimodale

Fatti principali

Entità

Istituzioni

Fonti