ARTFEED — Contemporary Art Intelligence

MoVT: Ragionamento Visivo Adattivo tramite Miscela di Pensieri Visivi

ai-technology · 2026-05-16

Un nuovo framework di ragionamento adattivo chiamato Mixture-of-Visual-Thoughts (MoVT) è stato introdotto dai ricercatori, che integra vari approcci di ragionamento in un unico modello e determina la modalità appropriata in base al contesto. Ciò è facilitato dal framework di apprendimento del ragionamento visivo adattivo a due stadi noto come AdaVaR. Nella fase iniziale di cold-start supervisionata, vengono apprese e unificate diverse modalità di ragionamento. Successivamente, la capacità del modello di selezionare le modalità viene migliorata tramite apprendimento per rinforzo con l'algoritmo AdaGRPO. I risultati sperimentali indicano che AdaVaR guida con successo il modello nell'apprendere e distinguere tra più modalità, ottenendo una selezione delle modalità sensibile al contesto e miglioramenti delle prestazioni coerenti in diversi scenari. L'articolo è disponibile su arXiv con ID 2509.22746.

Fatti principali

  • MoVT unifica diverse modalità di ragionamento all'interno di un unico modello.
  • AdaVaR è un framework di apprendimento del ragionamento visivo adattivo a due stadi.
  • La fase di cold-start supervisionata unifica e apprende diverse modalità.
  • La capacità di selezione delle modalità viene indotta tramite RL con l'algoritmo AdaGRPO.
  • Gli esperimenti mostrano un miglioramento coerente in vari scenari.
  • Articolo disponibile su arXiv: 2509.22746.
  • L'attenzione è sulle capacità di ragionamento visivo generale.
  • Il metodo è adattivo al contesto.

Entità

Istituzioni

  • arXiv

Fonti