MoVT: Ragionamento Visivo Adattivo tramite Miscela di Pensieri Visivi
Un nuovo framework di ragionamento adattivo chiamato Mixture-of-Visual-Thoughts (MoVT) è stato introdotto dai ricercatori, che integra vari approcci di ragionamento in un unico modello e determina la modalità appropriata in base al contesto. Ciò è facilitato dal framework di apprendimento del ragionamento visivo adattivo a due stadi noto come AdaVaR. Nella fase iniziale di cold-start supervisionata, vengono apprese e unificate diverse modalità di ragionamento. Successivamente, la capacità del modello di selezionare le modalità viene migliorata tramite apprendimento per rinforzo con l'algoritmo AdaGRPO. I risultati sperimentali indicano che AdaVaR guida con successo il modello nell'apprendere e distinguere tra più modalità, ottenendo una selezione delle modalità sensibile al contesto e miglioramenti delle prestazioni coerenti in diversi scenari. L'articolo è disponibile su arXiv con ID 2509.22746.
Fatti principali
- MoVT unifica diverse modalità di ragionamento all'interno di un unico modello.
- AdaVaR è un framework di apprendimento del ragionamento visivo adattivo a due stadi.
- La fase di cold-start supervisionata unifica e apprende diverse modalità.
- La capacità di selezione delle modalità viene indotta tramite RL con l'algoritmo AdaGRPO.
- Gli esperimenti mostrano un miglioramento coerente in vari scenari.
- Articolo disponibile su arXiv: 2509.22746.
- L'attenzione è sulle capacità di ragionamento visivo generale.
- Il metodo è adattivo al contesto.
Entità
Istituzioni
- arXiv