V-tableR1: Ragionamento Multimodale su Tabelle con Supervisione di Processo tramite Ottimizzazione delle Politiche Guidata da Critico
Un nuovo framework chiamato V-tableR1 è stato sviluppato da ricercatori, incentrato sull'apprendimento per rinforzo supervisionato dal processo per migliorare le capacità di ragionamento dei modelli linguistici multimodali di grandi dimensioni (MLLM). I MLLM tradizionali, addestrati principalmente sui risultati finali, spesso considerano il ragionamento visivo come un problema complesso, basandosi sul riconoscimento di pattern di base invece che su un ragionamento approfondito a più fasi. Sebbene l'apprendimento per rinforzo con ricompense verificabili miri a promuovere percorsi di ragionamento chiari, applicarlo a contesti visivi è difficile a causa della difficoltà di tradurre la logica astratta in dati pixel. Questo framework utilizza il formato strutturato delle tabelle come un efficace banco di prova visivo. V-tableR1 incorpora un VLM critico unico che fornisce feedback dettagliato sul processo di ragionamento visivo prodotto da un VLM politico. Per perfezionare questo approccio, gli autori introducono un nuovo algoritmo di RL chiamato Process-Guided Direct Alignment Policy Optimization (PGPO). La ricerca è disponibile su arXiv con l'identificatore 2604.20755.
Fatti principali
- V-tableR1 è un framework di apprendimento per rinforzo supervisionato dal processo.
- Si rivolge a modelli linguistici multimodali di grandi dimensioni (MLLM).
- Gli attuali MLLM trattano il ragionamento visivo come una scatola nera.
- Il framework utilizza le tabelle come banco di prova visivo.
- Un VLM critico fornisce feedback a livello di passo sulla catena di pensiero visiva.
- PGPO è il nuovo algoritmo di RL proposto per l'ottimizzazione.
- L'articolo è su arXiv con ID 2604.20755.
- Affronta l'ambiguità nel radicare la logica astratta nello spazio dei pixel.
Entità
Istituzioni
- arXiv