Il framework AttenA+ affronta la disuguaglianza delle azioni nei modelli di fondazione robotica
Il nuovo framework AttenA+ mira a risolvere le disparità nella rappresentazione delle azioni all'interno dei modelli di fondazione robotica. I modelli esistenti, come Vision-Language-Action (VLA) e World-Action Models (WAM), trattano tutte le azioni in modo uniforme durante l'ottimizzazione, ignorando la gerarchia fisica coinvolta nella manipolazione. Le traiettorie dei robot variano significativamente: i segmenti a bassa velocità richiedono precisione per il completamento del compito, mentre i movimenti ad alta velocità possono tollerare errori. Questa discrepanza ostacola l'efficacia in compiti complessi e di lunga durata. AttenA+ funge da soluzione agnostica all'architettura che enfatizza i segmenti cinematicamente importanti attraverso l'attenzione alle azioni guidata dalla velocità. Questa ricerca è dettagliata nell'articolo arXiv 2605.13548.
Fatti principali
- AttenA+ è un framework agnostico all'architettura per modelli di fondazione robotica.
- Affronta il presupposto implicito di omogeneità temporale nei modelli esistenti.
- Le traiettorie dei robot sono fondamentalmente eterogenee con segmenti di precisione a bassa velocità.
- La ponderazione uniforme della perdita non si allinea con la criticità fisica delle azioni.
- Il framework utilizza l'attenzione alle azioni guidata dalla velocità per ripesare i segmenti critici.
- Si rivolge ai modelli Vision-Language-Action (VLA) e World-Action Models (WAM).
- La ricerca è pubblicata su arXiv con ID 2605.13548.
- L'articolo è un annuncio cross-type.
Entità
Istituzioni
- arXiv