HCL-GP: L'apprendimento gerarchico delle politiche migliora le prestazioni degli agenti LLM
Una nuova tecnica nota come Apprendimento Gerarchico dei Componenti per Politiche Generalizzate (HCL-GP) unisce la scomposizione gerarchica dei compiti con la pianificazione generalizzata per agenti basati su LLM. Questo metodo sviluppa politiche parametrizzate che si estendono a varie istanze di compiti e identifica sistematicamente elementi riutilizzabili da esecuzioni riuscite, compilandoli in una libreria per la creazione compositiva di politiche. Affronta tre problemi principali: scomposizione automatizzata per l'apprendimento dei componenti, massimizzazione del riutilizzo dei componenti tramite generalizzazione e recupero efficiente mediante ricerca semantica. Testato sul benchmark AppWorld, HCL-GP ha registrato un'accuratezza del 98,2% sui compiti standard e del 97,8% sui compiti impegnativi che coinvolgono applicazioni non viste, segnando un miglioramento di 15,8 punti rispetto alla sintesi statica in scenari difficili. Per i modelli open-source, il riutilizzo dinamico porta a un tasso di successo del 62,5% rispetto a quasi zero senza di esso. La ricerca è disponibile su arXiv con ID 2605.06957.
Fatti principali
- HCL-GP combina pianificazione generalizzata e scomposizione gerarchica dei compiti per agenti LLM.
- Apprende politiche parametrizzate che generalizzano attraverso istanze di compiti.
- I componenti riutilizzabili vengono estratti da esecuzioni riuscite e memorizzati in una libreria.
- Tre sfide affrontate: scomposizione automatizzata, generalizzazione dei componenti e recupero semantico.
- Valutato sul benchmark AppWorld: 98,2% di accuratezza sui compiti normali, 97,8% sui compiti impegnativi.
- Migliora di 15,8 punti rispetto alla sintesi statica in scenari impegnativi.
- I modelli open-source raggiungono il 62,5% di successo con riutilizzo dinamico contro quasi zero senza.
- Articolo pubblicato su arXiv con ID 2605.06957.
Entità
Istituzioni
- arXiv