Nuova Metrica Rivela Fallimenti Nascosti nei Flussi di Lavoro degli Agenti di Pagamento LLM

ai-technology · 2026-05-09

Una nuova metrica chiamata Agentic Success Rate (ASR) è stata sviluppata dai ricercatori per valutare la fedeltà della traiettoria nei sistemi multi-agente di pagamento che utilizzano LLM. A differenza del Task Success Rate (TSR) e dell'Agent Handoff F1-Score (HF1), l'ASR valuta le sequenze di esecuzione degli agenti a livello di transizione, scomponendo le prestazioni in Transition Recall e Transition Precision. Testata sul Hierarchical Multi-Agent System for Payments (HMASP) con 18 LLM e 90.000 istanze di attività, è emerso che 10 modelli su 18 saltano sistematicamente un checkpoint di conferma durante l'elaborazione dei pagamenti—un problema non rilevato da TSR e HF1—mentre 8 modelli implementano correttamente il checkpoint. GPT-4.1 mostra scorciatoie nascoste nel flusso di lavoro nonostante TSR e HF1 perfetti, mentre GPT-5.2 raggiunge un ASR impeccabile. La ricerca suggerisce miglioramenti attraverso aggiustamenti dei prompt e guardie di routing deterministiche guidate dall'ASR.

Fatti principali

L'Agentic Success Rate (ASR) è una nuova metrica di fedeltà della traiettoria per sistemi multi-agente basati su LLM.
L'ASR confronta le sequenze di esecuzione degli agenti osservate e attese a livello di transizione.
L'ASR scompone le prestazioni in Transition Recall e Transition Precision.
Applicato al Hierarchical Multi-Agent System for Payments (HMASP) su 18 LLM e 90.000 istanze di attività.
10 modelli su 18 saltano sistematicamente un checkpoint di conferma durante il checkout del pagamento.
Il checkpoint saltato è invisibile al Task Success Rate (TSR) e all'Agent Handoff F1-Score (HF1).
GPT-4.1 mostra scorciatoie nascoste nel flusso di lavoro nonostante TSR e HF1 perfetti.
GPT-5.2 raggiunge un ASR perfetto.
Si propongono perfezionamenti dei prompt e guardie di routing deterministiche guidate dall'ASR.

Entità

—

Fonti

arXiv cs.AI — 2026-05-09