SkillC: Assegnazione Contrastiva del Credito per l'Internalizzazione delle Competenze negli Agenti LLM
I ricercatori hanno sviluppato SkillC, un nuovo framework progettato per aiutare gli agenti LLM ad apprendere competenze in modo autonomo utilizzando un metodo chiamato assegnazione contrastiva del credito. A differenza di altri approcci di apprendimento per rinforzo che utilizzano competenze esterne o le scartano, la maggior parte dei metodi attuali si concentra solo sull'utilità di una competenza senza aggiornare le politiche. SkillC introduce l'Assegnazione Contrastiva del Credito per le Competenze (CSCA), che trasforma questa utilità in un segnale di apprendimento. Produce due tipi di rollout – uno con competenze e uno senza – durante lo stesso aggiornamento della politica, utilizzando il contrasto a livello di compito per migliorare l'ottimizzazione. Questo approccio mira a potenziare l'apprendimento per rinforzo a lungo termine, consentendo agli agenti di apprendere competenze senza fare affidamento su segnali esterni durante i test.
Fatti principali
- SkillC è un framework per l'internalizzazione autonoma delle competenze negli agenti LLM.
- Utilizza l'Assegnazione Contrastiva del Credito per le Competenze (CSCA).
- I metodi esistenti usano solo il contrasto utilità-competenza per il controllo del curriculum.
- SkillC campiona rollout accoppiati con e senza competenze.
- Utilizza uno stimatore del vantaggio a doppio flusso con correzione unilaterale.
- L'obiettivo è migliorare l'apprendimento per rinforzo agentico a lungo termine.
- L'articolo è su arXiv con ID 2605.27899.
- SkillC consente prestazioni autonome senza prompt di competenze esterne.
Entità
Istituzioni
- arXiv