Gli Agenti LLM Mostrano un Pregiudizio Intrinseco all'Over-Calling nell'Uso degli Strumenti
Un recente studio pubblicato su arXiv (2605.18882) indica che gli agenti LLM utilizzano frequentemente gli strumenti in modo eccessivo, anche quando non è necessario. Nel benchmark When2Call, sei modelli appartenenti a tre famiglie hanno mostrato una forte accuratezza nelle chiamate, ma un'accuratezza significativamente inferiore nelle non-chiamate, con tassi di accuratezza complessivi compresi tra il 55% e il 70%. I ricercatori hanno introdotto l'Ipotesi del Pregiudizio Intrinseco (IBH), che postula che la mappatura delle decisioni di chiamata/non-chiamata includa un offset di chiamata indipendente dall'attivazione, portando a una preferenza per la chiamata anche quando le attivazioni sono uguali. Utilizzando Autoencoder Sparsi (SAE), hanno identificato basi di caratteristiche allineate al comportamento per il processo decisionale, le hanno ridotte a un margine di attivazione con segno e hanno stimato direttamente l'offset. I risultati hanno mostrato che la neutralità decisionale si verificava in tutti e sei i modelli solo quando l'attivazione di non-chiamata superava l'attivazione di chiamata, in linea con l'IBH. Il team ha ulteriormente testato causalmente l'IBH utilizzando il Steering Calibrato a Margine Adattivo (AMCS), un metodo per contrastare il pregiudizio lungo le direzioni del decoder SAE. Affrontare l'offset identificato ha ridotto la tendenza all'over-calling.
Fatti principali
- Gli agenti LLM chiamano strumenti in modo eccessivo anche quando non necessario
- Benchmark When2Call utilizzato per la valutazione
- Sei modelli di tre famiglie testati
- Accuratezza complessiva compresa tra il 55% e il 70%
- Proposta l'Ipotesi del Pregiudizio Intrinseco (IBH)
- Autoencoder Sparsi (SAE) utilizzati per analizzare le caratteristiche decisionali
- Sviluppato lo Steering Calibrato a Margine Adattivo (AMCS) per contrastare il pregiudizio
- Neutralità decisionale solo quando l'attivazione di non-chiamata supera quella di chiamata
Entità
Istituzioni
- arXiv