Skill1: Evoluzione Unificata delle Skill per Agenti Linguistici tramite RL
Un team di ricercatori ha introdotto Skill1, un framework progettato per addestrare una politica di reinforcement learning unificata che evolve simultaneamente selezione, applicazione e distillazione delle skill per agenti basati su modelli linguistici. Questa politica crea una query per esplorare la libreria di skill, rivaluta i candidati potenziali, affronta i compiti in base alla skill scelta ed estrae nuove skill dalle traiettorie, il tutto guidato da un unico segnale di risultato del compito. La selezione beneficia delle tendenze a bassa frequenza, mentre le variazioni ad alta frequenza migliorano la distillazione. I test condotti su ALFWorld e WebShop dimostrano che Skill1 supera gli approcci precedenti. Questa ricerca affronta il problema di mantenere una libreria di skill coerente per strategie riutilizzabili in vari compiti.
Fatti principali
- Skill1 è un framework per l'evoluzione unificata di agenti potenziati con skill.
- Utilizza una singola politica di reinforcement learning per selezione, utilizzo e distillazione delle skill.
- La politica genera una query, riordina i candidati, risolve i compiti e distilla nuove skill.
- Tutto l'apprendimento deriva da un unico segnale di risultato del compito.
- Le tendenze a bassa frequenza influenzano la selezione; le variazioni ad alta frequenza influenzano la distillazione.
- Esperimenti condotti sui benchmark ALFWorld e WebShop.
- Skill1 supera i metodi esistenti che ottimizzano le capacità in modo isolato.
- Il lavoro appare su arXiv con ID 2605.06130.
Entità
Istituzioni
- arXiv