Studio AgentProp-Bench Rivela Difetti nella Valutazione dell'Uso di Strumenti da Parte di LLM e Strategie di Mitigazione

ai-technology · 2026-04-22

Un nuovo benchmark chiamato AgentProp-Bench mette in discussione l'affidabilità presunta della valutazione automatizzata per agenti di grandi modelli linguistici che utilizzano strumenti. Lo studio introduce 2.000 compiti con 2.300 tracce in quattro domini, testando nove LLM di produzione e includendo un sottoinsieme di 100 etichette convalidato da annotatori umani. I ricercatori hanno quantificato l'affidabilità dei giudici, rilevando che la valutazione basata su sottostringhe ha raggiunto solo un accordo a livello casuale con l'annotazione umana a kappa=0,049. Un ensemble di tre LLM ha migliorato le prestazioni fino a un accordo moderato a kappa=0,432 ma ha mostrato un bias conservativo. In condizioni di valutazione convalidate, è stato dimostrato che le iniezioni a livello di parametro si propagano a risposte finali errate con probabilità calibrata dall'uomo di circa 0,62, variando da 0,46 a 0,73 tra diversi modelli. Lo studio ha rivelato che le capacità di rifiuto (catturare parametri errati) e le capacità di recupero (correggere dopo l'accettazione) rappresentano funzioni indipendenti del modello, con correlazione di Spearman rho=0,126 e p=0,747. È stato sviluppato un intercettore runtime ottimizzato per ridurre le allucinazioni negli agenti che utilizzano strumenti. La ricerca è stata pubblicata su arXiv con identificatore 2604.16706v1, segnando un contributo significativo alla comprensione delle metodologie di valutazione per sistemi di IA che utilizzano strumenti esterni.

Fatti principali

AgentProp-Bench contiene 2.000 compiti con 2.300 tracce in quattro domini
Il benchmark include un sottoinsieme di 100 etichette convalidato da umani
Nove LLM di produzione sono stati valutati nello studio
La valutazione basata su sottostringhe ha raggiunto solo un accordo a livello casuale con l'annotazione umana (kappa=0,049)
Un ensemble di tre LLM ha raggiunto un accordo moderato (kappa=0,432) con bias conservativo
Le iniezioni a livello di parametro si propagano a risposte finali errate con probabilità di circa 0,62
Le capacità di rifiuto e recupero sono funzioni indipendenti del modello (Spearman rho=0,126, p=0,747)
È stato sviluppato un intercettore runtime ottimizzato per ridurre le allucinazioni

Studio AgentProp-Bench Rivela Difetti nella Valutazione dell'Uso di Strumenti da Parte di LLM e Strategie di Mitigazione

Fatti principali

Entità

Istituzioni

Fonti