Shepherd: Un Runtime Formalizzato per Tracce di Esecuzione di Meta-Agenti

ai-technology · 2026-05-12

Un nuovo modello di programmazione funzionale chiamato Shepherd è stato sviluppato da ricercatori per formalizzare le azioni dei meta-agenti sugli agenti target come funzioni, con le sue operazioni essenziali implementate in Lean. Shepherd cattura ogni interazione tra agenti e i loro ambienti come un evento tipizzato all'interno di una traccia di esecuzione simile a Git, consentendo il fork e il replay di qualsiasi stato precedente. Il sistema può eseguire il fork del processo agente e del suo filesystem cinque volte più velocemente di Docker, raggiungendo oltre il 95% di riutilizzo della cache dei prompt durante il replay. Un intervento di supervisione dal vivo ha aumentato i tassi di superamento della coppia di programmazione su CooperBench dal 28,8% al 54,7%. Nella meta-ottimizzazione controfattuale, l'esplorazione ramificata ha superato le prestazioni di base fino a 11 punti, riducendo al contempo il tempo a muro fino al 58%. I rollout ramificati a turni specifici nell'addestramento Tree-RL hanno migliorato le prestazioni di TerminalBench-2 dal 34,2% al 39,4%. Il documento è accessibile su arXiv.

Fatti principali

Shepherd è un modello di programmazione funzionale per operazioni di meta-agenti.
Le operazioni principali sono meccanizzate in Lean.
Registra le interazioni agente-ambiente come eventi tipizzati in una traccia di esecuzione simile a Git.
Il fork è 5× più veloce di Docker con >95% di riutilizzo della cache dei prompt durante il replay.
L'intervento runtime ha migliorato i tassi di superamento di CooperBench dal 28,8% al 54,7%.
La meta-ottimizzazione controfattuale ha superato le baseline fino a 11 punti.
Il tempo a muro è stato ridotto fino al 58% nella meta-ottimizzazione controfattuale.
L'addestramento Tree-RL ha migliorato le prestazioni di TerminalBench-2 dal 34,2% al 39,4%.

Shepherd: Un Runtime Formalizzato per Tracce di Esecuzione di Meta-Agenti

Fatti principali

Entità

Istituzioni

Fonti