ARTFEED — Contemporary Art Intelligence

Agenti LLM si impegnano eccessivamente in compiti bloccati nel nuovo quadro di audit

ai-technology · 2026-05-01

I ricercatori hanno presentato il Support-State Triage Audit (SSTA-32), progettato per valutare quanto bene gli agenti basati su modelli linguistici di grandi dimensioni (LLM) riconoscano le fonti di interruzione dei compiti. Lo strumento classifica le richieste in quattro tipi: COMPLETE, CLARIFY, REQUEST SUPPORT e ABSTAIN. Lo studio ha analizzato un modello prominente utilizzando varie tecniche di prompting, inclusi i metodi Direct e Action-Only, e ha implementato un sistema di auto-auditing a doppia personalità. I risultati indicano una significativa tendenza all'impegno eccessivo nei compiti, con un tasso sorprendente del 41,7% di esecuzione di richieste incomplete. Questo lavoro è disponibile su arXiv, con l'identificatore 2604.16752.

Fatti principali

  • SSTA-32 è un framework diagnostico a elementi abbinati
  • Quattro stati di supporto: Completo, Chiarificabile, Bloccato dal Supporto, Non Supportato Ora
  • Quattro condizioni di prompting: Diretto, Solo Azione, Solo Confidenza, Controllo di Supporto Pre-volo
  • La valutazione utilizza l'auto-auditing a doppia personalità con punteggio euristico deterministico
  • Il tasso di impegno eccessivo predefinito è del 41,7% su compiti non completi
  • Articolo disponibile su arXiv: 2604.16752
  • Lo studio affronta se gli agenti possono diagnosticare il blocco del compito prima di agire
  • Le attuali valutazioni degli agenti premiano in gran parte l'esecuzione su compiti completamente specificati

Entità

Istituzioni

  • arXiv

Fonti