Il Framework PhysMem Consente ai Modelli Visione-Linguaggio di Apprendere Principi Fisici Tramite Interazione Robotica

ai-technology · 2026-04-22

Un nuovo framework di memoria chiamato PhysMem consente ai pianificatori basati su modelli visione-linguaggio (VLM) di acquisire conoscenza delle proprietà fisiche attraverso l'interazione diretta con i robot durante il tempo di test, senza richiedere aggiornamenti dei parametri del modello. Il sistema affronta le limitazioni per cui i VLM possono ragionare in generale su concetti come attrito e stabilità, ma faticano a prevedere esiti specifici—come il modo in cui una particolare palla rotolerà su una determinata superficie o quale pietra offra un supporto stabile—senza esperienza diretta. PhysMem opera registrando le interazioni, generando ipotesi candidate e verificandole attraverso test mirati prima di applicare la conoscenza validata a decisioni future. Un principio chiave del design è la verifica prima dell'applicazione: le ipotesi vengono testate rispetto a nuove osservazioni anziché applicare direttamente l'esperienza recuperata, il che riduce la dipendenza rigida dall'esperienza precedente quando le condizioni fisiche cambiano. Questo approccio migliora l'affidabilità nella manipolazione degli oggetti consentendo ai robot di apprendere e adattarsi a proprietà fisiche variabili tra diversi oggetti e ambienti. Il framework è documentato nella preprint arXiv 2602.20323v5, annunciata come sostituzione cross-type. Apprendendo principi fisici dall'interazione, PhysMem mira a migliorare l'adattabilità e le prestazioni dei pianificatori robotici basati su VLM in scenari reali dove le proprietà fisiche non sono statiche.

Fatti principali

PhysMem è un framework di memoria per pianificatori robotici basati su modelli visione-linguaggio (VLM).
Consente l'apprendimento di principi fisici dall'interazione al tempo di test senza aggiornare i parametri del modello.
Il sistema registra esperienze, genera ipotesi e le verifica attraverso interazione mirata.
La verifica prima dell'applicazione riduce la dipendenza rigida dall'esperienza precedente quando le condizioni fisiche cambiano.
Affronta le limitazioni dei VLM nel prevedere esiti specifici come il rotolamento di una palla su una superficie.
L'obiettivo è migliorare l'affidabilità nella manipolazione degli oggetti attraverso oggetti e ambienti variabili.
Il framework è dettagliato nella preprint arXiv 2602.20323v5, annunciata come replace-cross.
PhysMem aiuta i robot ad adattarsi a proprietà fisiche che variano tra oggetti e ambienti.

Entità

—

Fonti

arXiv cs.AI — 2026-04-22