PRISM-VL: Ancorare i Modelli Visione-Linguaggio ai Dati Sensoriali RAW

ai-technology · 2026-05-13

Esiste questo nuovo interessante metodo chiamato PRISM-VL che sta cambiando il modo in cui funziona l'apprendimento visione-linguaggio. Invece di basarsi su immagini RGB processate, utilizza le misurazioni originali della fotocamera per ottenere dati sensoriali più chiari. Questo approccio combina input Meas.-XYZ derivati da RAW, si adatta a diverse fotocamere e impiega l'Exposure-Bracketed Supervision Aggregation, concentrandosi sulle misurazioni piuttosto che sulle immagini RGB. È stato addestrato su un dataset di 150.000 istruzioni e testato in condizioni difficili come scarsa illuminazione e HDR. Il modello PRISM-VL-8B ha ottenuto un BLEU di 0,6120, un ROUGE-L di 0,4571 e un'accuratezza dell'82,66%, superando il modello basato su RGB Qwen3-VL-8B con margini notevoli. Ciò dimostra come i metodi incentrati sulle misurazioni possano migliorare le prestazioni in contesti visivi complessi.

Fatti principali

1. PRISM-VL utilizza input Meas.-XYZ derivati da RAW invece di immagini RGB post-ISP.
2. Il metodo incorpora il grounding condizionato dalla fotocamera e l'Exposure-Bracketed Supervision Aggregation.
3. L'addestramento ha utilizzato un set di 150.000 istruzioni con controllo qualità.
4. Il benchmark ha preso di mira casi di scarsa illuminazione, HDR, sensibilità alla visibilità e suscettibilità alle allucinazioni.
5. PRISM-VL-8B ha raggiunto BLEU 0,6120, ROUGE-L 0,4571 e accuratezza LLM-Judge dell'82,66%.
6. Miglioramento rispetto al baseline Qwen3-VL-8B: +0,1074 BLEU, +0,1071 ROUGE-L, +4,46 punti percentuali.
7. L'approccio mira a ridurre la perdita di informazioni dovuta alla resa RGB.
8. Pubblicato su arXiv con ID 2605.11727.

PRISM-VL: Ancorare i Modelli Visione-Linguaggio ai Dati Sensoriali RAW

Fatti principali

Entità

Istituzioni

Fonti