Shepherd: Un Runtime Formalizzato per Tracce di Esecuzione di Meta-Agenti
Un nuovo modello di programmazione funzionale chiamato Shepherd è stato sviluppato da ricercatori per formalizzare le azioni dei meta-agenti sugli agenti target come funzioni, con le sue operazioni essenziali implementate in Lean. Shepherd cattura ogni interazione tra agenti e i loro ambienti come un evento tipizzato all'interno di una traccia di esecuzione simile a Git, consentendo il fork e il replay di qualsiasi stato precedente. Il sistema può eseguire il fork del processo agente e del suo filesystem cinque volte più velocemente di Docker, raggiungendo oltre il 95% di riutilizzo della cache dei prompt durante il replay. Un intervento di supervisione dal vivo ha aumentato i tassi di superamento della coppia di programmazione su CooperBench dal 28,8% al 54,7%. Nella meta-ottimizzazione controfattuale, l'esplorazione ramificata ha superato le prestazioni di base fino a 11 punti, riducendo al contempo il tempo a muro fino al 58%. I rollout ramificati a turni specifici nell'addestramento Tree-RL hanno migliorato le prestazioni di TerminalBench-2 dal 34,2% al 39,4%. Il documento è accessibile su arXiv.
Fatti principali
- Shepherd è un modello di programmazione funzionale per operazioni di meta-agenti.
- Le operazioni principali sono meccanizzate in Lean.
- Registra le interazioni agente-ambiente come eventi tipizzati in una traccia di esecuzione simile a Git.
- Il fork è 5× più veloce di Docker con >95% di riutilizzo della cache dei prompt durante il replay.
- L'intervento runtime ha migliorato i tassi di superamento di CooperBench dal 28,8% al 54,7%.
- La meta-ottimizzazione controfattuale ha superato le baseline fino a 11 punti.
- Il tempo a muro è stato ridotto fino al 58% nella meta-ottimizzazione controfattuale.
- L'addestramento Tree-RL ha migliorato le prestazioni di TerminalBench-2 dal 34,2% al 39,4%.
Entità
Istituzioni
- arXiv
- CooperBench
- TerminalBench-2
- Lean