Video Internet Non Etichettati Migliorano la Comprensione di Scene 3D
I ricercatori dimostrano che video non etichettati provenienti da internet possono essere elaborati automaticamente per generare dati di addestramento per modelli di comprensione di scene 3D. L'approccio, descritto in arXiv:2604.01907, utilizza un motore dati attentamente progettato per curare video web e produrre annotazioni per compiti come rilevamento di oggetti 3D, segmentazione di istanze, VQA spaziale e navigazione visione-linguaggio. I modelli addestrati su questi dati sintetici mostrano una forte performance zero-shot, riducendo la dipendenza da costosi e scarsi dataset 3D annotati da umani. Lo studio identifica i fattori chiave nella generazione automatica dei dati che influenzano l'efficienza dell'apprendimento.
Fatti principali
- arXiv:2604.01907
- video internet non etichettati utilizzati per la comprensione di scene 3D
- motore dati genera automaticamente dati di addestramento
- valutato su rilevamento oggetti 3D, segmentazione istanze, VQA spaziale, VLN
- performance zero-shot dimostrata
- riduce la necessità di dati 3D annotati da umani
- analizzati i colli di bottiglia nella generazione automatica dei dati
- coperti compiti di percezione di basso livello e ragionamento di alto livello
Entità
Istituzioni
- arXiv