ARTFEED — Contemporary Art Intelligence

SUGAR: Un Framework Scalabile per la Loco-Manutenzione Umanoide da Video Umani

ai-technology · 2026-05-22

Un nuovo framework chiamato SUGAR è stato sviluppato da ricercatori per trasformare vari video umani in abilità di loco-manutenzione umanoide utilizzabili, eliminando la necessità di ingegneria della ricompensa specifica per il compito o di condizionamento del movimento di riferimento durante l'inferenza. Questo framework affronta il problema di creare robot umanoidi in grado di eseguire una loco-manutenzione generalizzabile di tutto il corpo in scenari del mondo reale. I metodi tradizionali spesso dipendono da una noiosa ingegneria della ricompensa o da un replay del movimento inflessibile, che mancano di scalabilità. Mentre i video umani mostrano una gamma di comportamenti, i priori di movimento derivati da essi sono ostacolati da occlusioni, artefatti di contatto ed errori di re-targeting, rendendoli inefficaci per l'apprendimento diretto delle politiche. SUGAR opera in tre fasi, iniziando con una pipeline automatizzata che estrae priori di interazione cinematica, incluse le traiettorie di movimento uomo-oggetto. Questo approccio innovativo facilita l'apprendimento scalabile dalla vasta quantità di dati video umani disponibili. I risultati sono stati pubblicati su arXiv con l'identificatore 2605.20373.

Fatti principali

  • SUGAR è un framework scalabile basato sui dati per la loco-manutenzione umanoide.
  • Converte diversi video umani in abilità implementabili senza ingegneria della ricompensa specifica per il compito.
  • Nessun condizionamento del movimento di riferimento è necessario durante l'inferenza.
  • I metodi esistenti si basano su una laboriosa ingegneria della ricompensa, replay del movimento rigido o teleoperazione costosa.
  • I priori di movimento dai video umani soffrono di occlusioni, artefatti di contatto ed errori di re-targeting.
  • SUGAR procede in tre fasi, iniziando con l'estrazione di priori di interazione cinematica.
  • Il framework consente l'apprendimento scalabile da abbondanti dati video umani.
  • Pubblicato su arXiv con identificatore 2605.20373.

Entità

Istituzioni

  • arXiv

Fonti