ARTFEED — Contemporary Art Intelligence

Video Internet Non Etichettati Migliorano la Comprensione di Scene 3D

ai-technology · 2026-04-27

I ricercatori dimostrano che video non etichettati provenienti da internet possono essere elaborati automaticamente per generare dati di addestramento per modelli di comprensione di scene 3D. L'approccio, descritto in arXiv:2604.01907, utilizza un motore dati attentamente progettato per curare video web e produrre annotazioni per compiti come rilevamento di oggetti 3D, segmentazione di istanze, VQA spaziale e navigazione visione-linguaggio. I modelli addestrati su questi dati sintetici mostrano una forte performance zero-shot, riducendo la dipendenza da costosi e scarsi dataset 3D annotati da umani. Lo studio identifica i fattori chiave nella generazione automatica dei dati che influenzano l'efficienza dell'apprendimento.

Fatti principali

  • arXiv:2604.01907
  • video internet non etichettati utilizzati per la comprensione di scene 3D
  • motore dati genera automaticamente dati di addestramento
  • valutato su rilevamento oggetti 3D, segmentazione istanze, VQA spaziale, VLN
  • performance zero-shot dimostrata
  • riduce la necessità di dati 3D annotati da umani
  • analizzati i colli di bottiglia nella generazione automatica dei dati
  • coperti compiti di percezione di basso livello e ragionamento di alto livello

Entità

Istituzioni

  • arXiv

Fonti