IVR-R1: Ragionamento Visivo-Guidato Iterativo per LLM Multimodali Basati su RL

publication · 2026-05-26

Un nuovo framework di addestramento per l'apprendimento per rinforzo, denominato IVR-R1 (Iterative Visual-grounded Reasoning), affronta i problemi di allucinazione visiva e imprecisioni logiche nei modelli linguistici di grandi dimensioni multimodali durante compiti di ragionamento estesi. Questo metodo presenta un riallineamento visivo dinamico, che regola proattivamente i percorsi di ragionamento per migliorare l'ottimizzazione delle politiche. IVR-R1 incorpora un sistema di screening basato su ricompense per rilevare rollout errati e applica correzioni dettagliate. La strategia mira a risolvere lo squilibrio informativo tra dati testuali e contesti visivi che riduce l'ancoraggio visivo man mano che le sequenze di ragionamento progrediscono. Questa ricerca è disponibile su arXiv con l'identificatore 2605.23997.

Fatti principali

IVR-R1 è un nuovo framework di addestramento RL per LLM multimodali.
Affronta l'allucinazione visiva e gli errori logici nel ragionamento a lungo termine.
Il metodo utilizza il riallineamento visivo dinamico per rettificare le traiettorie di ragionamento.
Un meccanismo di screening basato su ricompense identifica i rollout errati.
L'articolo è disponibile su arXiv come 2605.23997.
Il framework mira a superare l'asimmetria informativa tra testo e immagini.
Esegue correzioni granulari durante l'ottimizzazione delle politiche.
L'approccio è mirato a compiti di ragionamento visivo complessi.

IVR-R1: Ragionamento Visivo-Guidato Iterativo per LLM Multimodali Basati su RL

Fatti principali

Entità

Istituzioni

Fonti