La decomposizione gerarchica dei compiti potenzia il ragionamento spaziale degli LLM
Un recente preprint su arXiv (2605.28144) presenta una tecnica di decomposizione gerarchica volta a migliorare il ragionamento spaziale nei grandi modelli linguistici (LLM). Ispirandosi all'apprendimento per rinforzo gerarchico, questo metodo consente agli LLM di scomporre compiti spaziali complessi in sotto-compiti più semplici, individuando stati intermedi essenziali e creando sotto-ambienti semplificati. Tuttavia, gli LLM spesso faticano a identificare stati intermedi ottimali a causa della mancanza di adeguati priori spaziali, risultando in una decomposizione meno efficace. Per affrontare questo problema, gli autori propongono MCTS-Guided Group Relative Policy Optimization (M-GRPO), che modifica la formula UCT per includere le probabilità predittive a priori dell'LLM. Questa ricerca mira a rafforzare le capacità di pianificazione degli LLM per applicazioni nell'intelligenza incarnata.
Fatti principali
- Il preprint arXiv 2605.28144 propone la decomposizione gerarchica per il ragionamento spaziale degli LLM
- Metodo ispirato all'apprendimento per rinforzo gerarchico
- Gli LLM scompongono compiti complessi in sotto-compiti tramite stati intermedi e sotto-ambienti
- Gli LLM spesso non riescono a derivare stati intermedi ottimali a causa di insufficienti priori spaziali
- Introdotto M-GRPO (MCTS-Guided Group Relative Policy Optimization) per superare la limitazione
- M-GRPO riformula la formula UCT utilizzando le probabilità predittive a priori dell'LLM
- Obiettivo: migliorare la pianificazione degli LLM per l'intelligenza incarnata
- Articolo pubblicato su arXiv con tipo di annuncio 'new'
Entità
Istituzioni
- arXiv