LLM come Riconoscitori di Obiettivi: Prima Valutazione Sistematica Zero-Shot

ai-technology · 2026-05-18

Un recente articolo su arXiv (2605.15333) introduce la prima valutazione sistematica zero-shot di modelli linguistici di grandi dimensioni (LLM) avanzati come riconoscitori di obiettivi utilizzando benchmark PDDL classici. I risultati indicano che la capacità degli LLM nel riconoscimento degli obiettivi varia significativamente: alcuni modelli migliorano con l'aggiunta di prove e raggiungono una precisione quasi perfetta con osservazioni complete, mentre altri rimangono dipendenti dalla conoscenza pregressa del mondo nonostante l'accumulo di prove. Un'analisi dei percorsi di ragionamento mostra che questa variazione deriva da una differenza fondamentale nel modo in cui le prove vengono integrate, piuttosto che nel ragionamento deduttivo. Gli autori sostengono che il riconoscimento degli obiettivi, un compito abduttivo che valuta l'allineamento con la conoscenza del mondo, si allinea più strettamente con i punti di forza degli LLM rispetto alla pianificazione, che richiede la creazione di nuove sequenze di azioni.

Fatti principali

Prima valutazione sistematica zero-shot di LLM all'avanguardia come riconoscitori di obiettivi su benchmark PDDL classici.
Alcuni LLM scalano con le prove e si avvicinano alla precisione basata su landmark con osservazioni complete.
Altri LLM rimangono ancorati a priori di conoscenza del mondo indipendentemente dall'accumulo di prove.
La divergenza riflette una differenza fondamentale nell'integrazione delle prove piuttosto che nella deduzione.
Il riconoscimento degli obiettivi è un compito abduttivo che valuta la coerenza con la conoscenza del mondo.
La competenza di pianificazione degli LLM si basa sullo sfruttamento della conoscenza del mondo piuttosto che sul ragionamento simbolico genuino.
Articolo disponibile su arXiv con ID 2605.15333.
Il riconoscimento degli obiettivi è strutturalmente più adatto ai punti di forza degli LLM rispetto alla pianificazione.

LLM come Riconoscitori di Obiettivi: Prima Valutazione Sistematica Zero-Shot

Fatti principali

Entità

Istituzioni

Fonti