Gli Agenti LLM Faticano con Istruzioni Poco Chiare; Nuovo Framework Richiede Chiarimenti

ai-technology · 2026-04-30

Un nuovo studio da arXiv (2409.00557) rivela che i modelli linguistici di grandi dimensioni (LLM) dotati di capacità di chiamata di funzione hanno difficoltà quando le istruzioni dell'utente sono imprecise. I ricercatori hanno analizzato richieste utente reali, identificato modelli di errore e costruito Noisy ToolBench (NoisyToolBench), un benchmark per valutare l'uso degli strumenti LLM in condizioni di istruzioni imperfette. Hanno scoperto che, a causa dell'addestramento alla previsione del token successivo, gli LLM tendono a generare arbitrariamente argomenti mancanti, portando ad allucinazioni e rischi. Per affrontare questo problema, il team ha proposto Ask-when-Needed (AwN), un framework che spinge gli LLM a porre domande di chiarimento agli utenti quando le istruzioni non sono chiare, piuttosto che indovinare.

Fatti principali

arXiv:2409.00557v4
Creato il benchmark Noisy ToolBench (NoisyToolBench)
Gli LLM generano arbitrariamente argomenti mancanti a causa della previsione del token successivo
Proposto il framework Ask-when-Needed (AwN)
Lo studio si concentra sull'uso degli strumenti LLM con istruzioni imperfette
Esaminate istruzioni utente reali
Analizzati modelli di errore nell'esecuzione degli strumenti LLM
AwN spinge gli LLM a chiedere chiarimenti agli utenti

Gli Agenti LLM Faticano con Istruzioni Poco Chiare; Nuovo Framework Richiede Chiarimenti

Fatti principali

Entità

Istituzioni

Fonti