MoVT: Ragionamento Visivo Adattivo tramite Miscela di Pensieri Visivi

ai-technology · 2026-05-16

Un nuovo framework di ragionamento adattivo chiamato Mixture-of-Visual-Thoughts (MoVT) è stato introdotto dai ricercatori, che integra vari approcci di ragionamento in un unico modello e determina la modalità appropriata in base al contesto. Ciò è facilitato dal framework di apprendimento del ragionamento visivo adattivo a due stadi noto come AdaVaR. Nella fase iniziale di cold-start supervisionata, vengono apprese e unificate diverse modalità di ragionamento. Successivamente, la capacità del modello di selezionare le modalità viene migliorata tramite apprendimento per rinforzo con l'algoritmo AdaGRPO. I risultati sperimentali indicano che AdaVaR guida con successo il modello nell'apprendere e distinguere tra più modalità, ottenendo una selezione delle modalità sensibile al contesto e miglioramenti delle prestazioni coerenti in diversi scenari. L'articolo è disponibile su arXiv con ID 2509.22746.

Fatti principali

MoVT unifica diverse modalità di ragionamento all'interno di un unico modello.
AdaVaR è un framework di apprendimento del ragionamento visivo adattivo a due stadi.
La fase di cold-start supervisionata unifica e apprende diverse modalità.
La capacità di selezione delle modalità viene indotta tramite RL con l'algoritmo AdaGRPO.
Gli esperimenti mostrano un miglioramento coerente in vari scenari.
Articolo disponibile su arXiv: 2509.22746.
L'attenzione è sulle capacità di ragionamento visivo generale.
Il metodo è adattivo al contesto.

MoVT: Ragionamento Visivo Adattivo tramite Miscela di Pensieri Visivi

Fatti principali

Entità

Istituzioni

Fonti