PhysBrain 1.0: Scalare il Senso Comune Fisico dai Video Umani

ai-technology · 2026-05-18

Il rapporto tecnico intitolato PhysBrain 1.0 presenta un metodo innovativo per integrare il senso comune fisico nei modelli visione-linguaggio-azione, trasformando ampi video egocentrici umani in supervisione strutturata. Questo motore dati identifica i componenti della scena, le interazioni spaziali, le performance delle azioni e le relazioni di profondità, creando successivamente coppie domanda-risposta per addestrare i VLM PhysBrain. Queste intuizioni fisiche vengono poi adattate alle politiche VLA attraverso un approccio sensibile al linguaggio e che preserva le capacità. Il modello stabilisce nuovi parametri di riferimento nella QA multimodale e nel controllo incarnato, eccellendo in ERQA, PhysBench, SimplerEnv-WidowX, LIBERO e RoboCasa, e dimostrando capacità eccezionali fuori dominio su SimplerEnv. I risultati indicano che sfruttare il senso comune fisico dai video di interazione umana può migliorare notevolmente la comprensione e l'adattabilità dei robot.

Fatti principali

PhysBrain 1.0 utilizza video egocentrici umani per generare supervisione sul senso comune fisico.
Il motore dati estrae elementi della scena, dinamiche spaziali, esecuzione delle azioni e relazioni di profondità.
Le coppie domanda-risposta vengono create dai dati estratti per addestrare i VLM PhysBrain.
I priori fisici vengono trasferiti alle politiche VLA tramite adattamento sensibile al linguaggio e che preserva le capacità.
I benchmark includono ERQA, PhysBench, SimplerEnv-WidowX, LIBERO e RoboCasa.
Raggiunge risultati all'avanguardia in tutti i benchmark.
Forte performance fuori dominio su SimplerEnv.
Rapporto pubblicato su arXiv con ID 2605.15298.

PhysBrain 1.0: Scalare il Senso Comune Fisico dai Video Umani

Fatti principali

Entità

Istituzioni

Fonti