La decomposizione gerarchica dei compiti potenzia il ragionamento spaziale degli LLM

ai-technology · 2026-05-28

Un recente preprint su arXiv (2605.28144) presenta una tecnica di decomposizione gerarchica volta a migliorare il ragionamento spaziale nei grandi modelli linguistici (LLM). Ispirandosi all'apprendimento per rinforzo gerarchico, questo metodo consente agli LLM di scomporre compiti spaziali complessi in sotto-compiti più semplici, individuando stati intermedi essenziali e creando sotto-ambienti semplificati. Tuttavia, gli LLM spesso faticano a identificare stati intermedi ottimali a causa della mancanza di adeguati priori spaziali, risultando in una decomposizione meno efficace. Per affrontare questo problema, gli autori propongono MCTS-Guided Group Relative Policy Optimization (M-GRPO), che modifica la formula UCT per includere le probabilità predittive a priori dell'LLM. Questa ricerca mira a rafforzare le capacità di pianificazione degli LLM per applicazioni nell'intelligenza incarnata.

Fatti principali

Il preprint arXiv 2605.28144 propone la decomposizione gerarchica per il ragionamento spaziale degli LLM
Metodo ispirato all'apprendimento per rinforzo gerarchico
Gli LLM scompongono compiti complessi in sotto-compiti tramite stati intermedi e sotto-ambienti
Gli LLM spesso non riescono a derivare stati intermedi ottimali a causa di insufficienti priori spaziali
Introdotto M-GRPO (MCTS-Guided Group Relative Policy Optimization) per superare la limitazione
M-GRPO riformula la formula UCT utilizzando le probabilità predittive a priori dell'LLM
Obiettivo: migliorare la pianificazione degli LLM per l'intelligenza incarnata
Articolo pubblicato su arXiv con tipo di annuncio 'new'

La decomposizione gerarchica dei compiti potenzia il ragionamento spaziale degli LLM

Fatti principali

Entità

Istituzioni

Fonti