ARTFEED — Contemporary Art Intelligence

SeePhys Pro: un benchmark rivela lacune nel trasferimento di modalità nel RLVR multimodale

ai-technology · 2026-05-12

SeePhys Pro è un benchmark progettato per il trasferimento fine-grained di modalità, volto a esaminare se i modelli di IA mantengono le loro capacità di ragionamento quando le informazioni essenziali passano dal testo alle immagini. A differenza dei tipici benchmark incentrati sulla visione che valutano un singolo tipo di input, SeePhys Pro include quattro versioni semanticamente allineate per ogni problema, con elementi visivi progressivamente maggiori. Le valutazioni rivelano che i modelli leader hanno difficoltà con l'invarianza di rappresentazione: le prestazioni tipicamente diminuiscono quando le informazioni passano dal linguaggio ai diagrammi, con il grounding delle variabili visive come principale ostacolo. Per affrontare questa vulnerabilità in fase di inferenza, i ricercatori hanno creato ampi dataset di addestramento per il RLVR multimodale e hanno impiegato l'addestramento cieco come strumento diagnostico. Hanno scoperto che l'apprendimento per rinforzo, anche con tutte le immagini di addestramento oscurate, può migliorare le prestazioni su set di validazione non mascherati. Questa ricerca è disponibile su arXiv, identificatore 2605.09266.

Fatti principali

  • SeePhys Pro è un benchmark per il trasferimento di modalità nel ragionamento dell'IA.
  • Testa le prestazioni quando le informazioni passano dal testo all'immagine.
  • Quattro varianti semanticamente allineate per problema con elementi visivi crescenti.
  • Gli attuali modelli di frontiera non sono ragionatori invarianti di rappresentazione.
  • Le prestazioni degradano quando le informazioni passano dal linguaggio ai diagrammi.
  • Il grounding delle variabili visive è il collo di bottiglia più critico.
  • Sono stati sviluppati grandi corpora di addestramento per il RLVR multimodale.
  • L'addestramento cieco con immagini mascherate migliora comunque le prestazioni su set non mascherati.

Entità

Istituzioni

  • arXiv

Fonti