ClawTrace: Tracciamento Sensibile ai Costi per la Distillazione delle Competenze degli Agenti LLM
Un recente articolo di ricerca presenta ClawTrace, una piattaforma progettata per tracciare gli agenti che registra ogni chiamata a un LLM, l'utilizzo di strumenti e la creazione di sotto-agenti durante una sessione dell'agente. Queste informazioni sono organizzate in una TraceCard, un riepilogo YAML conciso che dettaglia il costo in USD per passo, i conteggi dei token e gli indicatori di ridondanza. CostCraft, sviluppato da ClawTrace, funge da pipeline di distillazione che analizza le TraceCard per creare tre varietà di patch di competenze: le patch Preserve mantengono i comportamenti di successo; le patch Prune eliminano passaggi costosi non necessari, ciascuna supportata da una giustificazione controfattuale contro uno specifico passo ad alto costo; le patch Repair risolvono i fallimenti basandosi su prove oracle. Pubblicato su arXiv con ID 2604.23853, l'articolo evidenzia una lacuna significativa nelle pipeline di distillazione delle competenze riguardante l'assenza di segnali di costo per passo, il che complica la differenziazione tra l'aggiunta di un passo correttivo e la rimozione di un passo costoso inefficace. Esperimenti su 30 compiti SpreadsheetBench tenuti nascosti convalidano l'efficacia del metodo.
Fatti principali
- 1. ClawTrace registra ogni chiamata LLM, uso di strumenti e creazione di sotto-agenti durante una sessione dell'agente.
- 2. Ogni sessione è compilata in una TraceCard: un riepilogo YAML compatto con costo per passo in USD, conteggi dei token e flag di ridondanza.
- 3. CostCraft è una pipeline di distillazione basata su ClawTrace che produce tre tipi di patch di competenze: Preserve, Prune e Repair.
- 4. Le patch Preserve mantengono i comportamenti che hanno portato al successo.
- 5. Le patch Prune rimuovono passaggi costosi che non erano rilevanti, supportati da argomenti controfattuali.
- 6. Le patch Repair risolvono i fallimenti basandosi su prove oracle.
- 7. L'articolo è pubblicato su arXiv con ID 2604.23853.
- 8. Le ablazioni sono state eseguite su 30 compiti SpreadsheetBench tenuti nascosti.
Entità
Istituzioni
- arXiv