I modelli linguistici di frontiera eguagliano o superano i pianificatori classici nei compiti IPC
Una recente indagine pubblicata su arXiv contesta le conclusioni precedenti riguardanti l'incapacità dei grandi modelli linguistici di affrontare efficacemente compiti di pianificazione. I ricercatori hanno valutato tre modelli linguistici avanzati—Gemini 3.1 Pro, GPT-5 e un altro modello senza nome—utilizzando una serie impegnativa di compiti derivati dall'ultima International Planning Competition. Hanno impiegato uno strumento di validazione per confermare le soluzioni, generato nuovi compiti per prevenire la contaminazione dei dati e confrontato i risultati con i principali pianificatori classici. Gemini 3.1 Pro ha risolto con successo 245 dei 360 compiti, superando la migliore baseline dei pianificatori, che ne ha risolti 234. GPT-5 ha mostrato prestazioni simili alle baseline. Sebbene le prestazioni siano diminuite quando le informazioni semantiche sono state oscurate, Gemini 3.1 Pro è rimasto competitivo, sfidando l'affermazione precedente che i modelli linguistici faticano anche con compiti di pianificazione di base.
Fatti principali
- Lo studio valuta tre modelli linguistici di frontiera su compiti di pianificazione dell'International Planning Competition.
- Gemini 3.1 Pro ha risolto 245 dei 360 compiti, superando la più forte baseline dei pianificatori classici (234).
- GPT-5 ha ottenuto prestazioni paragonabili alle baseline dei pianificatori classici.
- I compiti sono stati creati ex novo per evitare la contaminazione dei dati.
- Le soluzioni sono state verificate con uno strumento di validazione.
- Quando le informazioni semantiche sono state offuscate, Gemini 3.1 Pro è rimasto competitivo con le baseline più forti.
- Lo studio ribalta i risultati precedenti secondo cui i modelli linguistici non sono in grado di risolvere in modo affidabile semplici compiti di pianificazione.
- La ricerca è pubblicata su arXiv con identificativo 2511.09378.
Entità
Istituzioni
- arXiv
- International Planning Competition