L'esplorazione delle frontiere guidata da VLM aumenta la copertura della mappa del robot del 24%
Un innovativo sistema di esplorazione autonoma utilizza modelli linguistico-visivi (VLM) per facilitare il processo decisionale strategico in ambienti sconosciuti. Il robot crea un prompt multimodale che incorpora la mappa esistente insieme ai dati visivi delle possibili frontiere; il VLM identifica quindi il percorso più vantaggioso, utilizzando il ragionamento spaziale contestuale invece delle euristiche geometriche tradizionali. Testato in simulazioni in sei spazi interni, questo metodo migliora la copertura della mappa fino al 24% rispetto alle tecniche attuali. Inoltre, il sistema è leggero, non richiede addestramento e può essere adattato a qualsiasi robot dotato di sensori standard e connessione Internet.
Fatti principali
- Il VLM esegue un processo decisionale strategico di alto livello per l'esplorazione del robot.
- Il robot genera un prompt multimodale con mappa e immagini visive delle frontiere.
- Il VLM seleziona la frontiera più promettente utilizzando il ragionamento spaziale contestuale.
- Validato in simulazione in sei ambienti interni.
- Migliora la copertura della mappa fino al 24% rispetto ai metodi esistenti.
- Il sistema è leggero e non richiede addestramento.
- Trasferibile a qualsiasi robot con sensori standard e connessione Internet.
- Affronta la sfida di lunga data dell'esplorazione autonoma in ambienti pericolosi.
Entità
Istituzioni
- arXiv