Gli Agenti LLM Faticano con Istruzioni Poco Chiare; Nuovo Framework Richiede Chiarimenti
Un nuovo studio da arXiv (2409.00557) rivela che i modelli linguistici di grandi dimensioni (LLM) dotati di capacità di chiamata di funzione hanno difficoltà quando le istruzioni dell'utente sono imprecise. I ricercatori hanno analizzato richieste utente reali, identificato modelli di errore e costruito Noisy ToolBench (NoisyToolBench), un benchmark per valutare l'uso degli strumenti LLM in condizioni di istruzioni imperfette. Hanno scoperto che, a causa dell'addestramento alla previsione del token successivo, gli LLM tendono a generare arbitrariamente argomenti mancanti, portando ad allucinazioni e rischi. Per affrontare questo problema, il team ha proposto Ask-when-Needed (AwN), un framework che spinge gli LLM a porre domande di chiarimento agli utenti quando le istruzioni non sono chiare, piuttosto che indovinare.
Fatti principali
- arXiv:2409.00557v4
- Creato il benchmark Noisy ToolBench (NoisyToolBench)
- Gli LLM generano arbitrariamente argomenti mancanti a causa della previsione del token successivo
- Proposto il framework Ask-when-Needed (AwN)
- Lo studio si concentra sull'uso degli strumenti LLM con istruzioni imperfette
- Esaminate istruzioni utente reali
- Analizzati modelli di errore nell'esecuzione degli strumenti LLM
- AwN spinge gli LLM a chiedere chiarimenti agli utenti
Entità
Istituzioni
- arXiv