I modelli visione-linguaggio recuperano la conoscenza degli iperonimi dal solo linguaggio
Un nuovo studio su arXiv indaga come i modelli visione-linguaggio (VLM) generalizzano la conoscenza degli iperonimi quando l'evidenza visiva è limitata. Ricercatori di un'istituzione non divulgata hanno congelato sia l'encoder delle immagini che il modello linguistico (LM), addestrando solo le mappature intermedie. Hanno progressivamente privato il VLM di evidenze esplicite di iperonimi durante l'addestramento, testando se il LM potesse recuperare questa conoscenza. I risultati mostrano che i LM possono generalizzare gli iperonimi anche nel caso più estremo—nessuna evidenza di iperonimi durante l'addestramento. Lo studio esplora l'interazione tra rappresentazioni semantiche apprese dalla forma superficiale e dall'evidenza fondata, concentrandosi sulla previsione degli iperonimi di oggetti nelle immagini. Esperimenti aggiuntivi suggeriscono ulteriori capacità, sebbene i dettagli non siano forniti. L'articolo è disponibile su arXiv con ID 2603.07474.
Fatti principali
- Lo studio esamina la generalizzazione tassonomica cross-modale nei modelli visione-linguaggio.
- I ricercatori hanno congelato sia l'encoder delle immagini che il modello linguistico, addestrando solo le mappature intermedie.
- I VLM sono stati progressivamente privati di evidenze esplicite di iperonimi durante l'addestramento.
- I LM hanno recuperato la conoscenza degli iperonimi anche senza alcuna evidenza di iperonimi durante l'addestramento.
- Focus sulla previsione degli iperonimi di oggetti rappresentati nelle immagini.
- Articolo disponibile su arXiv con ID 2603.07474.
- Esperimenti aggiuntivi suggeriscono ulteriori capacità di generalizzazione.
- Viene studiata l'interazione tra rappresentazioni semantiche dalla forma superficiale e dall'evidenza fondata.
Entità
Istituzioni
- arXiv