La ricerca esplora l'aritmetica semantica visiva dei modelli linguistici di grandi dimensioni per applicazioni robotiche
Uno studio recente indaga il potenziale largamente trascurato dei modelli linguistici di grandi dimensioni nell'aritmetica semantica visiva, che implica dedurre relazioni dalle immagini. Questa abilità è vitale sia per i robot di servizio che per quelli domestici che operano in ambienti caotici, dove comprendere i collegamenti semantici tra oggetti, azioni e agenti è essenziale. L'analogia tradizionale "re"-"uomo"+"donna" = "regina" illustra il ragionamento relazionale, ma le prestazioni calano drasticamente quando il testo viene sostituito con immagini di "re" e "uomo" a causa della necessità di conoscenza di senso comune e della sfida di distillare concetti rilevanti da elementi visivi distraenti. Negli scenari di cucina, identificare che "polvere" e "torta" sono collegati da "è fatta di" stabilisce relazioni simboliche nella percezione, facilitando la sostituzione degli strumenti, la generalizzazione dei compiti e un ragionamento semantico migliorato. Sebbene l'apprendimento per rinforzo abbia migliorato significativamente il ragionamento dei modelli linguistici di grandi dimensioni nella codifica e nella matematica, l'aritmetica semantica visiva rimane un'area impegnativa. Questa ricerca è stata pubblicata su arXiv con l'identificatore 2604.19567v1.
Fatti principali
- La ricerca esplora l'aritmetica semantica visiva con modelli linguistici di grandi dimensioni
- La capacità coinvolge dedurre relazioni dalle immagini
- Importante per la robotica di servizio e domestica in ambienti non strutturati
- L'analogia testuale classica "re"-"uomo"+"donna" = "regina" illustra il ragionamento relazionale
- Le prestazioni calano quando il testo viene sostituito con immagini
- Richiede conoscenza di senso comune ed estrazione di concetti concisi da dettagli visivi
- Consente la sostituzione degli strumenti e la generalizzazione dei compiti nella robotica
- L'articolo è stato annunciato su arXiv con l'identificatore 2604.19567v1
Entità
Istituzioni
- arXiv