ARTFEED — Contemporary Art Intelligence

SRPO: L'assegnazione del credito a livello di token migliora il ragionamento multimodale

ai-technology · 2026-05-11

Una recente pubblicazione su arXiv (2605.07274) presenta Structured Role-Aware Policy Optimization (SRPO), una tecnica che migliora l'apprendimento per rinforzo da ricompense verificabili (RLVR) specificamente per il ragionamento multimodale nei grandi modelli visione-linguaggio (LVLM). I metodi tradizionali di RLVR, come Group Relative Policy Optimization (GRPO), forniscono ricompense a livello di sequenza che non differenziano i ruoli dei vari token, lasciando incertezza sul fatto che una risposta corretta sia supportata da informazioni visive pertinenti. SRPO risolve questo problema suddividendo gli output strutturati in token di percezione (per l'estrazione di prove visive) e token di ragionamento (per la derivazione della risposta). Trasforma i vantaggi della GRPO a livello di sequenza in vantaggi a livello di token consapevoli del ruolo, facilitando un'assegnazione del credito più accurata, preservando al contempo l'integrità dell'architettura del modello originale.

Fatti principali

  • Titolo del paper: Structured Role-Aware Policy Optimization for Multimodal Reasoning
  • Identificatore arXiv: 2605.07274
  • Tipo di annuncio: nuovo
  • RLVR con GRPO viene utilizzato per migliorare il ragionamento nei LVLM
  • Le ricompense a livello di sequenza non distinguono i ruoli funzionali dei token
  • SRPO scompone le risposte in token di percezione e di ragionamento
  • SRPO perfeziona il vantaggio della GRPO a livello di sequenza in vantaggi a livello di token
  • Obiettivo: garantire che le risposte corrette siano supportate da prove visive

Entità

Istituzioni

  • arXiv

Fonti