Generatori di immagini come apprendisti visivi generalisti

ai-technology · 2026-04-24

Un recente studio pubblicato su arXiv (2604.20329) rivela che l'addestramento nella generazione di immagini, simile al pre-addestramento dei grandi modelli linguistici (LLM), consente ai modelli di acquisire rappresentazioni visive robuste. I ricercatori presentano Vision Banana, un modello versatile creato tramite instruction-tuning di Nano Banana Pro (NBP) utilizzando una miscela di dati di addestramento originali insieme a dati di compiti visivi. Rappresentando gli output dei compiti visivi come immagini RGB, questo modello raggiunge prestazioni di alto livello in molteplici compiti visivi, dimostrando che i modelli generativi visivi possono sviluppare significative capacità di comprensione.

Fatti principali

Articolo arXiv 2604.20329
I generatori di immagini mostrano comprensione visiva zero-shot
Introdotto il modello Vision Banana
Costruito tramite instruction-tuning di Nano Banana Pro (NBP)
Spazio degli output dei compiti visivi parametrizzato come immagini RGB
Raggiunge prestazioni SOTA su vari compiti visivi
Pre-addestramento generativo analogo al pre-addestramento LLM
In precedenza esistevano prove limitate per la comprensione visiva generativa

Generatori di immagini come apprendisti visivi generalisti

Fatti principali

Entità

Istituzioni

Fonti