VT-Bench: Primo Benchmark Unificato per l'Apprendimento Visivo-Tabulare
VT-Bench è stato lanciato dai ricercatori come il primo benchmark unificato volto a standardizzare i compiti relativi alla previsione discriminativa e al ragionamento generativo visivo-tabulare. Questo benchmark comprende 14 dataset provenienti da 9 domini distinti, tra cui aree incentrate su sanità, animali domestici, media e trasporti, per un totale di oltre 756.000 campioni. Il team di ricerca ha valutato 23 modelli rappresentativi, che includono specialisti unimodali, modelli visivo-tabulari dedicati, modelli di linguaggio visivo (VLM) per scopi generali e approcci potenziati da strumenti. I risultati rivelano ostacoli significativi nell'apprendimento visivo-tabulare, un campo poco esplorato ma cruciale per settori ad alto rischio come la sanità e l'industria. Il benchmark è accessibile pubblicamente su GitHub.
Fatti principali
- VT-Bench è il primo benchmark unificato per l'apprendimento visivo-tabulare.
- Copre compiti di previsione discriminativa e ragionamento generativo.
- Il benchmark include 14 dataset provenienti da 9 domini.
- I domini includono ambiti medico-centrici, animali domestici, media e trasporti.
- Oltre 756.000 campioni sono aggregati in VT-Bench.
- Sono stati valutati 23 modelli, inclusi approcci unimodali e multimodali.
- L'apprendimento visivo-tabulare è poco esplorato ma cruciale per la sanità e l'industria.
- Il benchmark è disponibile all'URL GitHub fornito.
Entità
Istituzioni
- arXiv