EvoNav: Progettazione di Ricompense Guidata da LLM per la Navigazione Robotica

ai-technology · 2026-05-13

EvoNav è un framework evolutivo che automatizza la progettazione di funzioni di ricompensa per la navigazione robotica utilizzando modelli linguistici di grandi dimensioni (LLM). Affronta la sensibilità della qualità della politica di Apprendimento per Rinforzo (RL) alle ricompense artigianali, che richiedono competenze di dominio e incorporano bias difficili da verificare. EvoNav valuta le proposte di ricompensa candidate tramite una procedura progressiva a tre fasi di warm-up-boost, iniziando con proxy analitici e surrogate a basso costo (piccoli dataset, regole analitiche), poi rollout leggeri, e infine addestramento completo della politica. Questo approccio supera il costo proibitivo dell'addestramento della politica per ogni candidato. Il framework è dettagliato in un articolo su arXiv (2605.11859).

Fatti principali

EvoNav automatizza la progettazione di funzioni di ricompensa per la navigazione robotica usando LLM.
La qualità della politica di Apprendimento per Rinforzo è sensibile alla specifica delle ricompense.
Le ricompense artigianali richiedono competenze di dominio e incorporano bias.
EvoNav utilizza una procedura di valutazione a tre fasi di warm-up-boost.
Fasi: proxy analitici, rollout leggeri, addestramento completo della politica.
Il framework riduce il costo di valutazione delle proposte di ricompensa candidate.
Articolo pubblicato su arXiv con ID 2605.11859.
EvoNav è mirato alla navigazione robotica in ambienti umani dinamici.

EvoNav: Progettazione di Ricompense Guidata da LLM per la Navigazione Robotica

Fatti principali

Entità

Istituzioni

Fonti