I LLM faticano con i vincoli impliciti nella pianificazione di viaggi
Un nuovo studio scompone la pianificazione di viaggi in cinque sotto-capacità atomiche—Estrazione dei Vincoli, Uso degli Strumenti, Generazione del Piano, Identificazione degli Errori e Correzione degli Errori—per isolare i fallimenti dei LLM. Utilizzando una valutazione disaccoppiata con contesti intermedi oracle, i ricercatori hanno scoperto che, mentre i modelli eccellono nell'estrarre vincoli espliciti, falliscono su requisiti impliciti e aperti al mondo. Il lavoro evidenzia un chiaro divario di prestazioni e mira a migliorare l'interpretabilità nei compiti di ragionamento a lungo termine.
Fatti principali
- La pianificazione di viaggi è un compito critico per il ragionamento a lungo termine nei LLM.
- I benchmark esistenti valutano i piani finali end-to-end, mancando di interpretabilità.
- Lo studio scompone la pianificazione di viaggi in cinque sotto-capacità atomiche.
- Un protocollo di valutazione disaccoppiato utilizza contesti intermedi oracle.
- I LLM sono abili nell'estrarre vincoli espliciti.
- I LLM faticano a inferire requisiti impliciti e aperti al mondo.
- La ricerca isola i confini di prestazione atomici senza errori a cascata.
- L'articolo è disponibile su arXiv con ID 2605.03308.
Entità
Istituzioni
- arXiv