PGT: Compiti Generati Proceduralmente Migliorano il Grounding Visivo negli MLLM
I ricercatori propongono i Compiti Generati Proceduralmente (PGT), un framework basato sui dati per migliorare la comprensione visiva fine nei Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM). PGT sovrappone primitive geometriche alle immagini per generare una supervisione densa, separando il grounding visivo dai priori semantici. Gli esperimenti mostrano miglioramenti fino al +20% sul benchmark What'sUp e +13,3% su CV-Bench-2D quando si arricchisce LLaVA-v1.5-Instruct con dati PGT, mantenendo al contempo le capacità percettive generali. Il framework funge anche da strumento diagnostico a basso costo per identificare fallimenti percettivi. L'articolo è disponibile su arXiv con ID 2605.23883.
Fatti principali
- 1. PGT sta per Compiti Generati Proceduralmente
- 2. PGT migliora la comprensione visiva fine negli MLLM
- 3. PGT sovrappone primitive geometriche alle immagini
- 4. PGT separa il grounding visivo dai priori semantici
- 5. Miglioramento fino al +20% sul benchmark What'sUp
- 6. +13,3% di miglioramento su CV-Bench-2D
- 7. PGT funge da strumento diagnostico a basso costo
- 8. Articolo disponibile su arXiv: 2605.23883
Entità
Istituzioni
- arXiv