Un framework di apprendimento per rinforzo migliora la sinergia percezione-ragionamento nei VLM
Un nuovo framework di apprendimento per rinforzo mira a risolvere il compromesso tra percezione e ragionamento nei modelli visione-linguaggio (VLM). L'articolo, pubblicato su arXiv, sostiene che la causa principale dei fallimenti dei VLM sia un'ambiguità nell'assegnazione del credito modale: se gli errori derivano da una percezione imperfetta ("vedere male") o da una logica imperfetta ("pensare male"). Il framework proposto migliora la sinergia percezione-ragionamento premiando esplicitamente la fedeltà percettiva, evitando l'"effetto altalena" osservato negli approcci precedenti che si basano su ragionamento testuale statico o complessi flussi di lavoro agentici. Il metodo scompone il problema dell'assegnazione del credito, consentendo prestazioni VLM più efficienti e robuste senza un pesante carico computazionale o ingegneristico.
Fatti principali
- ID articolo arXiv: 2605.14054v1
- Tipo di annuncio: nuovo
- Focus sui modelli visione-linguaggio (VLM)
- Identifica l'"effetto altalena" tra percezione e ragionamento
- Introduce un framework di apprendimento per rinforzo
- Premia la fedeltà percettiva per migliorare la sinergia
- Sostiene che la causa principale sia l'ambiguità nell'assegnazione del credito modale
- Evita il pesante carico computazionale e ingegneristico dei flussi di lavoro agentici
Entità
Istituzioni
- arXiv