Video Internet Non Etichettati Migliorano la Comprensione di Scene 3D

ai-technology · 2026-04-27

I ricercatori dimostrano che video non etichettati provenienti da internet possono essere elaborati automaticamente per generare dati di addestramento per modelli di comprensione di scene 3D. L'approccio, descritto in arXiv:2604.01907, utilizza un motore dati attentamente progettato per curare video web e produrre annotazioni per compiti come rilevamento di oggetti 3D, segmentazione di istanze, VQA spaziale e navigazione visione-linguaggio. I modelli addestrati su questi dati sintetici mostrano una forte performance zero-shot, riducendo la dipendenza da costosi e scarsi dataset 3D annotati da umani. Lo studio identifica i fattori chiave nella generazione automatica dei dati che influenzano l'efficienza dell'apprendimento.

Fatti principali

arXiv:2604.01907
video internet non etichettati utilizzati per la comprensione di scene 3D
motore dati genera automaticamente dati di addestramento
valutato su rilevamento oggetti 3D, segmentazione istanze, VQA spaziale, VLN
performance zero-shot dimostrata
riduce la necessità di dati 3D annotati da umani
analizzati i colli di bottiglia nella generazione automatica dei dati
coperti compiti di percezione di basso livello e ragionamento di alto livello

Video Internet Non Etichettati Migliorano la Comprensione di Scene 3D

Fatti principali

Entità

Istituzioni

Fonti