SkillNav: Framework Modulare Basato su Competenze per la Navigazione Visione-Linguaggio
I ricercatori propongono SkillNav, un framework modulare per la Navigazione Visione-Linguaggio (VLN) che scompone la navigazione in competenze atomiche interpretabili come Movimento Verticale, Identificazione di Aree e Regioni, e Stop e Pausa. Ogni competenza è gestita da un agente specializzato all'interno di un'architettura basata su Transformer. Per consentire un addestramento mirato delle competenze senza annotazioni manuali, gli autori sviluppano un pipeline di dataset sintetico che genera coppie istruzione-traiettoria linguisticamente naturali e diversificate. L'approccio mira a migliorare la generalizzazione a scenari non visti che richiedono ragionamento spaziale e temporale complesso. Il lavoro è dettagliato nel preprint arXiv 2508.07642.
Fatti principali
- SkillNav è un framework modulare per agenti VLN.
- Scompone la navigazione in competenze atomiche come Movimento Verticale, Identificazione di Aree e Regioni, Stop e Pausa.
- Ogni competenza è gestita da un agente specializzato.
- Il framework si basa sull'architettura Transformer.
- Un pipeline di dataset sintetico genera coppie istruzione-traiettoria specifiche per competenza.
- Il pipeline produce dati linguisticamente naturali e diversificati senza annotazioni manuali.
- Il metodo mira a migliorare la generalizzazione a scenari non visti.
- La ricerca è pubblicata su arXiv con ID 2508.07642.
Entità
Istituzioni
- arXiv