Generatori di immagini come apprendisti visivi generalisti
Un recente studio pubblicato su arXiv (2604.20329) rivela che l'addestramento nella generazione di immagini, simile al pre-addestramento dei grandi modelli linguistici (LLM), consente ai modelli di acquisire rappresentazioni visive robuste. I ricercatori presentano Vision Banana, un modello versatile creato tramite instruction-tuning di Nano Banana Pro (NBP) utilizzando una miscela di dati di addestramento originali insieme a dati di compiti visivi. Rappresentando gli output dei compiti visivi come immagini RGB, questo modello raggiunge prestazioni di alto livello in molteplici compiti visivi, dimostrando che i modelli generativi visivi possono sviluppare significative capacità di comprensione.
Fatti principali
- Articolo arXiv 2604.20329
- I generatori di immagini mostrano comprensione visiva zero-shot
- Introdotto il modello Vision Banana
- Costruito tramite instruction-tuning di Nano Banana Pro (NBP)
- Spazio degli output dei compiti visivi parametrizzato come immagini RGB
- Raggiunge prestazioni SOTA su vari compiti visivi
- Pre-addestramento generativo analogo al pre-addestramento LLM
- In precedenza esistevano prove limitate per la comprensione visiva generativa
Entità
Istituzioni
- arXiv