PhysBrain 1.0: Scalare il Senso Comune Fisico dai Video Umani
Il rapporto tecnico intitolato PhysBrain 1.0 presenta un metodo innovativo per integrare il senso comune fisico nei modelli visione-linguaggio-azione, trasformando ampi video egocentrici umani in supervisione strutturata. Questo motore dati identifica i componenti della scena, le interazioni spaziali, le performance delle azioni e le relazioni di profondità, creando successivamente coppie domanda-risposta per addestrare i VLM PhysBrain. Queste intuizioni fisiche vengono poi adattate alle politiche VLA attraverso un approccio sensibile al linguaggio e che preserva le capacità. Il modello stabilisce nuovi parametri di riferimento nella QA multimodale e nel controllo incarnato, eccellendo in ERQA, PhysBench, SimplerEnv-WidowX, LIBERO e RoboCasa, e dimostrando capacità eccezionali fuori dominio su SimplerEnv. I risultati indicano che sfruttare il senso comune fisico dai video di interazione umana può migliorare notevolmente la comprensione e l'adattabilità dei robot.
Fatti principali
- PhysBrain 1.0 utilizza video egocentrici umani per generare supervisione sul senso comune fisico.
- Il motore dati estrae elementi della scena, dinamiche spaziali, esecuzione delle azioni e relazioni di profondità.
- Le coppie domanda-risposta vengono create dai dati estratti per addestrare i VLM PhysBrain.
- I priori fisici vengono trasferiti alle politiche VLA tramite adattamento sensibile al linguaggio e che preserva le capacità.
- I benchmark includono ERQA, PhysBench, SimplerEnv-WidowX, LIBERO e RoboCasa.
- Raggiunge risultati all'avanguardia in tutti i benchmark.
- Forte performance fuori dominio su SimplerEnv.
- Rapporto pubblicato su arXiv con ID 2605.15298.
Entità
Istituzioni
- arXiv