SkillOpt: Un Nuovo Metodo per l'Auto-Evoluzione delle Competenze degli Agenti
Un nuovo articolo su arXiv propone SkillOpt, un metodo sistematico per ottimizzare le competenze degli agenti attraverso modifiche nello spazio testuale. A differenza delle competenze attuali create manualmente o auto-revisionate in modo approssimativo, SkillOpt tratta le competenze come stato esterno di un agente congelato, utilizzando un modello ottimizzatore separato per applicare modifiche limitate basate su rollout valutati. Le modifiche vengono accettate solo se migliorano un punteggio di validazione. Il metodo include un budget di tasso di apprendimento testuale, un buffer di modifiche rifiutate e aggiornamenti lenti/meta per epoca per garantire stabilità, aggiungendo zero chiamate al modello in fase di inferenza durante il deployment. Testato su sei benchmark, sette modelli target e tre esecuzioni.
Fatti principali
- SkillOpt è introdotto come il primo ottimizzatore testuale controllabile sistematico per le competenze degli agenti.
- Utilizza un modello ottimizzatore separato per apportare modifiche di aggiunta/eliminazione/sostituzione su un singolo documento di competenza.
- Le modifiche vengono accettate solo quando migliorano strettamente un punteggio di validazione su un set di controllo.
- Il metodo include un budget di tasso di apprendimento testuale e un buffer di modifiche rifiutate.
- Aggiunge zero chiamate al modello in fase di inferenza durante il deployment.
- Testato su sei benchmark, sette modelli target e tre esecuzioni.
Entità
Istituzioni
- arXiv