Gli Agenti LLM Mostrano un Pregiudizio Intrinseco all'Over-Calling nell'Uso degli Strumenti

ai-technology · 2026-05-20

Un recente studio pubblicato su arXiv (2605.18882) indica che gli agenti LLM utilizzano frequentemente gli strumenti in modo eccessivo, anche quando non è necessario. Nel benchmark When2Call, sei modelli appartenenti a tre famiglie hanno mostrato una forte accuratezza nelle chiamate, ma un'accuratezza significativamente inferiore nelle non-chiamate, con tassi di accuratezza complessivi compresi tra il 55% e il 70%. I ricercatori hanno introdotto l'Ipotesi del Pregiudizio Intrinseco (IBH), che postula che la mappatura delle decisioni di chiamata/non-chiamata includa un offset di chiamata indipendente dall'attivazione, portando a una preferenza per la chiamata anche quando le attivazioni sono uguali. Utilizzando Autoencoder Sparsi (SAE), hanno identificato basi di caratteristiche allineate al comportamento per il processo decisionale, le hanno ridotte a un margine di attivazione con segno e hanno stimato direttamente l'offset. I risultati hanno mostrato che la neutralità decisionale si verificava in tutti e sei i modelli solo quando l'attivazione di non-chiamata superava l'attivazione di chiamata, in linea con l'IBH. Il team ha ulteriormente testato causalmente l'IBH utilizzando il Steering Calibrato a Margine Adattivo (AMCS), un metodo per contrastare il pregiudizio lungo le direzioni del decoder SAE. Affrontare l'offset identificato ha ridotto la tendenza all'over-calling.

Fatti principali

Gli agenti LLM chiamano strumenti in modo eccessivo anche quando non necessario
Benchmark When2Call utilizzato per la valutazione
Sei modelli di tre famiglie testati
Accuratezza complessiva compresa tra il 55% e il 70%
Proposta l'Ipotesi del Pregiudizio Intrinseco (IBH)
Autoencoder Sparsi (SAE) utilizzati per analizzare le caratteristiche decisionali
Sviluppato lo Steering Calibrato a Margine Adattivo (AMCS) per contrastare il pregiudizio
Neutralità decisionale solo quando l'attivazione di non-chiamata supera quella di chiamata

Gli Agenti LLM Mostrano un Pregiudizio Intrinseco all'Over-Calling nell'Uso degli Strumenti

Fatti principali

Entità

Istituzioni

Fonti