Life-Harness: Adattamento Runtime per Agenti LLM Deterministici
Life-Harness è una tecnica innovativa che potenzia agenti LLM congelati senza alterare i pesi del modello o i contesti di valutazione. Questo metodo modifica l'harness runtime, che funge da interfaccia per osservazione, utilizzo di strumenti, esecuzione di azioni, analisi del feedback e gestione della traiettoria, trasformando i frequenti fallimenti di interazione in soluzioni riutilizzabili. In prove condotte in sette ambienti deterministici da τ-bench, τ²-bench e AgentBench, Life-Harness ha mostrato miglioramenti in 116 delle 126 combinazioni modello-ambiente coinvolgendo 18 modelli. Questa strategia affronta problemi in domini basati su regole derivanti da discrepanze nell'interfaccia modello-ambiente, piuttosto che regolare i parametri del modello.
Fatti principali
- Life-Harness è un harness runtime consapevole del ciclo di vita per agenti LLM congelati.
- Non modifica i pesi del modello o gli ambienti di valutazione.
- Si evolve dalle traiettorie di addestramento convertendo fallimenti ricorrenti in interventi.
- Gli interventi riguardano contratti ambientali, abilità procedurali, realizzazione di azioni e regolazione della traiettoria.
- Testato in sette ambienti deterministici da τ-bench, τ²-bench e AgentBench.
- Migliora 116 delle 126 impostazioni modello-ambiente su 18 modelli.
- Si concentra su disallineamenti dell'interfaccia modello-ambiente in domini governati da regole.
- Il metodo rimane fisso durante la valutazione su dati non visti.
Entità
—