Rewind-IL: Il Framework Migliora l'Apprendimento per Imitazione dei Robot con Rilevamento e Recupero degli Errori
Rewind-IL, un innovativo framework online che non richiede addestramento, affronta i problemi di implementazione nell'apprendimento per imitazione per la robotica. Questo sistema integra un metodo di rilevamento degli errori zero-shot basato su Temporal Inter-chunk Discrepancy Estimate (TIDE) insieme a una funzionalità di state-respawning che riporta i robot a stati intermedi sicuri verificati semanticamente. È progettato per politiche di azione a blocchi a lungo orizzonte, che possono generare azioni localmente plausibili ma non riescono a recuperare quando l'esecuzione si allontana dal manifold di dimostrazione. Gli attuali monitor runtime necessitano di dati sugli errori, si attivano troppo facilmente con lievi deviazioni delle caratteristiche, o rilevano solo gli errori senza offrire soluzioni di recupero. Un modello vision-language identifica offline gli stati intermedi sicuri, e TIDE viene ottimizzato utilizzando split conformal prediction per una maggiore affidabilità. Questo framework è stato pubblicato su arXiv con identificatore 2604.16683v1 come abstract cross-type. Mentre l'apprendimento per imitazione ha permesso ai robot di apprendere abilità visuomotorie complesse dalle dimostrazioni, gli errori di implementazione continuano a rappresentare sfide significative. Questa ricerca offre una soluzione completa che rileva gli errori senza bisogno di dati di addestramento e include un meccanismo di recupero piuttosto che una mera rilevazione.
Fatti principali
- Rewind-IL è un framework di salvaguardia online senza addestramento per politiche di imitazione generative ad azione a blocchi
- Combina un rilevatore di errori zero-shot basato su Temporal Inter-chunk Discrepancy Estimate (TIDE)
- Il rilevatore TIDE è calibrato con split conformal prediction
- Include un meccanismo di state-respawning che riporta i robot a stati intermedi sicuri verificati semanticamente
- Affronta gli errori di implementazione nell'apprendimento per imitazione per politiche di azione a blocchi a lungo orizzonte
- Gli attuali monitor runtime richiedono dati sugli errori o si attivano eccessivamente con lievi deviazioni delle caratteristiche
- Offline, un modello vision-language identifica gli stati intermedi sicuri
- Annunciato su arXiv con identificatore 2604.16683v1 come abstract cross-type
Entità
Istituzioni
- arXiv