ARTFEED — Contemporary Art Intelligence

La decomposizione gerarchica dei compiti potenzia il ragionamento spaziale degli LLM

ai-technology · 2026-05-28

Un recente preprint su arXiv (2605.28144) presenta una tecnica di decomposizione gerarchica volta a migliorare il ragionamento spaziale nei grandi modelli linguistici (LLM). Ispirandosi all'apprendimento per rinforzo gerarchico, questo metodo consente agli LLM di scomporre compiti spaziali complessi in sotto-compiti più semplici, individuando stati intermedi essenziali e creando sotto-ambienti semplificati. Tuttavia, gli LLM spesso faticano a identificare stati intermedi ottimali a causa della mancanza di adeguati priori spaziali, risultando in una decomposizione meno efficace. Per affrontare questo problema, gli autori propongono MCTS-Guided Group Relative Policy Optimization (M-GRPO), che modifica la formula UCT per includere le probabilità predittive a priori dell'LLM. Questa ricerca mira a rafforzare le capacità di pianificazione degli LLM per applicazioni nell'intelligenza incarnata.

Fatti principali

  • Il preprint arXiv 2605.28144 propone la decomposizione gerarchica per il ragionamento spaziale degli LLM
  • Metodo ispirato all'apprendimento per rinforzo gerarchico
  • Gli LLM scompongono compiti complessi in sotto-compiti tramite stati intermedi e sotto-ambienti
  • Gli LLM spesso non riescono a derivare stati intermedi ottimali a causa di insufficienti priori spaziali
  • Introdotto M-GRPO (MCTS-Guided Group Relative Policy Optimization) per superare la limitazione
  • M-GRPO riformula la formula UCT utilizzando le probabilità predittive a priori dell'LLM
  • Obiettivo: migliorare la pianificazione degli LLM per l'intelligenza incarnata
  • Articolo pubblicato su arXiv con tipo di annuncio 'new'

Entità

Istituzioni

  • arXiv

Fonti