PTA-GRPO migliora il ragionamento degli LLM con pianificazione di alto livello

ai-technology · 2026-05-27

Un nuovo framework chiamato Plan-Then-Action Enhanced Reasoning with Group Relative Policy Optimization (PTA-GRPO) è stato introdotto dai ricercatori per migliorare il ragionamento nei grandi modelli linguistici (LLM). Questo framework opera in due fasi: inizialmente, condensa il ragionamento Chain-of-Thought in istruzioni concise di alto livello per il fine-tuning supervisionato. Successivamente, impiega l'apprendimento per rinforzo guidato dalla consapevolezza per ottimizzare collettivamente l'output finale. Questo approccio affronta le sfide poste dalle decisioni locali a livello di token e dai significativi costi computazionali associati alla ricerca basata su alberi e alle tecniche di apprendimento per rinforzo.

Fatti principali

PTA-GRPO è un framework a due fasi per il ragionamento degli LLM
Fase 1: Riassume il CoT in linee guida di alto livello per il fine-tuning supervisionato
Fase 2: L'apprendimento per rinforzo guidato dalla consapevolezza ottimizza congiuntamente l'output finale
Affronta le decisioni locali a livello di token negli LLM
Riduce i costi computazionali rispetto alla ricerca basata su alberi e all'apprendimento per rinforzo
Pubblicato su arXiv: 2510.01833v2
Si concentra sul miglioramento delle traiettorie di ragionamento

Entità

—

Fonti

arXiv cs.AI — 2026-05-27