Agenti CLI Apprendono da Credito d'Azione Strutturato e Osservazione Selettiva
Un recente articolo su arXiv (2605.08013) presenta strategie per migliorare gli agenti a interfaccia a riga di comando (CLI) utilizzando attributi di azione strutturati e osservazione selettiva. I ricercatori evidenziano due sfide principali: estrarre informazioni rilevanti per il compito da osservazioni parziali all'interno di ampi codebase e fornire ricompense terminali scarse per le azioni in sequenze multi-turno lunghe. Propongono σ-Reveal, un meccanismo a tempo di inferenza che cura un contesto con budget di token per la stessa CLI. Lo studio esamina questi metodi attraverso compiti che coinvolgono estrazione di informazioni guidata da shell e modifica di file. Impiegando l'apprendimento per rinforzo (RL), la ricerca mira a sviluppare abilità di interazione basate su feedback di compito verificabile, sfruttando gli attributi strutturati intrinseci delle azioni CLI come segnali di apprendimento.
Fatti principali
- 1. L'articolo arXiv:2605.08013 propone miglioramenti per agenti CLI.
- 2. Introduce σ-Reveal per l'osservazione selettiva.
- 3. Affronta i colli di bottiglia nella navigazione di grandi codebase e nell'assegnazione delle ricompense.
- 4. Utilizza l'apprendimento per rinforzo da feedback di compito verificabile.
- 5. Si concentra su compiti di estrazione di informazioni guidata da shell e modifica di file.
- 6. Sfrutta gli attributi strutturati delle azioni CLI come segnali di apprendimento.
- 7. Gli agenti CLI interagiscono con filesystem e programmi in evoluzione.
- 8. Il lavoro è un meccanismo a tempo di inferenza per la selezione del contesto con budget di token.
Entità
Istituzioni
- arXiv