SuperIgor: Estrazione Autonoma di Piani per Compiti di Istruzioni
I ricercatori hanno presentato SuperIgor, un nuovo framework progettato per compiti che richiedono il seguire istruzioni. Questo sistema consente a un modello linguistico di creare e migliorare autonomamente piani di alto livello, riducendo significativamente la necessità di etichettatura manuale dei dati. La metodologia impiega un processo di co-addestramento: un agente RL impara a eseguire i piani generati e, contemporaneamente, il modello linguistico modifica questi piani in base al feedback e alle preferenze dell'agente RL. Ciò stabilisce un ciclo di miglioramento reciproco per il pianificatore e l'agente. Il framework è stato testato in ambienti complessi e dinamici. I risultati indicano che gli agenti SuperIgor rispettano le istruzioni in modo più efficace rispetto ai metodi tradizionali, mostrando anche una robusta generalizzazione a nuove istruzioni.
Fatti principali
- 1. SuperIgor è un framework per compiti di seguire istruzioni.
- 2. Consente a un modello linguistico di generare e perfezionare piani di alto livello tramite autoapprendimento.
- 3. L'approccio riduce la necessità di annotazione manuale dei dati.
- 4. Il co-addestramento iterativo coinvolge un agente RL e un modello linguistico.
- 5. L'agente RL viene addestrato a seguire i piani generati.
- 6. Il modello linguistico adatta i piani in base al feedback e alle preferenze dell'RL.
- 7. Il framework crea un ciclo di feedback per il miglioramento congiunto.
- 8. Gli agenti SuperIgor aderiscono alle istruzioni in modo più rigoroso rispetto ai metodi di base.
- 9. Il framework generalizza a istruzioni mai viste prima.
Entità
Istituzioni
- arXiv