Agenti LLM si impegnano eccessivamente in compiti bloccati nel nuovo quadro di audit

ai-technology · 2026-05-01

I ricercatori hanno presentato il Support-State Triage Audit (SSTA-32), progettato per valutare quanto bene gli agenti basati su modelli linguistici di grandi dimensioni (LLM) riconoscano le fonti di interruzione dei compiti. Lo strumento classifica le richieste in quattro tipi: COMPLETE, CLARIFY, REQUEST SUPPORT e ABSTAIN. Lo studio ha analizzato un modello prominente utilizzando varie tecniche di prompting, inclusi i metodi Direct e Action-Only, e ha implementato un sistema di auto-auditing a doppia personalità. I risultati indicano una significativa tendenza all'impegno eccessivo nei compiti, con un tasso sorprendente del 41,7% di esecuzione di richieste incomplete. Questo lavoro è disponibile su arXiv, con l'identificatore 2604.16752.

Fatti principali

SSTA-32 è un framework diagnostico a elementi abbinati
Quattro stati di supporto: Completo, Chiarificabile, Bloccato dal Supporto, Non Supportato Ora
Quattro condizioni di prompting: Diretto, Solo Azione, Solo Confidenza, Controllo di Supporto Pre-volo
La valutazione utilizza l'auto-auditing a doppia personalità con punteggio euristico deterministico
Il tasso di impegno eccessivo predefinito è del 41,7% su compiti non completi
Articolo disponibile su arXiv: 2604.16752
Lo studio affronta se gli agenti possono diagnosticare il blocco del compito prima di agire
Le attuali valutazioni degli agenti premiano in gran parte l'esecuzione su compiti completamente specificati

Agenti LLM si impegnano eccessivamente in compiti bloccati nel nuovo quadro di audit

Fatti principali

Entità

Istituzioni

Fonti