Nuova Metrica Rivela Fallimenti Nascosti nei Flussi di Lavoro degli Agenti di Pagamento LLM
Una nuova metrica chiamata Agentic Success Rate (ASR) è stata sviluppata dai ricercatori per valutare la fedeltà della traiettoria nei sistemi multi-agente di pagamento che utilizzano LLM. A differenza del Task Success Rate (TSR) e dell'Agent Handoff F1-Score (HF1), l'ASR valuta le sequenze di esecuzione degli agenti a livello di transizione, scomponendo le prestazioni in Transition Recall e Transition Precision. Testata sul Hierarchical Multi-Agent System for Payments (HMASP) con 18 LLM e 90.000 istanze di attività, è emerso che 10 modelli su 18 saltano sistematicamente un checkpoint di conferma durante l'elaborazione dei pagamenti—un problema non rilevato da TSR e HF1—mentre 8 modelli implementano correttamente il checkpoint. GPT-4.1 mostra scorciatoie nascoste nel flusso di lavoro nonostante TSR e HF1 perfetti, mentre GPT-5.2 raggiunge un ASR impeccabile. La ricerca suggerisce miglioramenti attraverso aggiustamenti dei prompt e guardie di routing deterministiche guidate dall'ASR.
Fatti principali
- L'Agentic Success Rate (ASR) è una nuova metrica di fedeltà della traiettoria per sistemi multi-agente basati su LLM.
- L'ASR confronta le sequenze di esecuzione degli agenti osservate e attese a livello di transizione.
- L'ASR scompone le prestazioni in Transition Recall e Transition Precision.
- Applicato al Hierarchical Multi-Agent System for Payments (HMASP) su 18 LLM e 90.000 istanze di attività.
- 10 modelli su 18 saltano sistematicamente un checkpoint di conferma durante il checkout del pagamento.
- Il checkpoint saltato è invisibile al Task Success Rate (TSR) e all'Agent Handoff F1-Score (HF1).
- GPT-4.1 mostra scorciatoie nascoste nel flusso di lavoro nonostante TSR e HF1 perfetti.
- GPT-5.2 raggiunge un ASR perfetto.
- Si propongono perfezionamenti dei prompt e guardie di routing deterministiche guidate dall'ASR.
Entità
—