PTA-GRPO migliora il ragionamento degli LLM con pianificazione di alto livello
Un nuovo framework chiamato Plan-Then-Action Enhanced Reasoning with Group Relative Policy Optimization (PTA-GRPO) è stato introdotto dai ricercatori per migliorare il ragionamento nei grandi modelli linguistici (LLM). Questo framework opera in due fasi: inizialmente, condensa il ragionamento Chain-of-Thought in istruzioni concise di alto livello per il fine-tuning supervisionato. Successivamente, impiega l'apprendimento per rinforzo guidato dalla consapevolezza per ottimizzare collettivamente l'output finale. Questo approccio affronta le sfide poste dalle decisioni locali a livello di token e dai significativi costi computazionali associati alla ricerca basata su alberi e alle tecniche di apprendimento per rinforzo.
Fatti principali
- PTA-GRPO è un framework a due fasi per il ragionamento degli LLM
- Fase 1: Riassume il CoT in linee guida di alto livello per il fine-tuning supervisionato
- Fase 2: L'apprendimento per rinforzo guidato dalla consapevolezza ottimizza congiuntamente l'output finale
- Affronta le decisioni locali a livello di token negli LLM
- Riduce i costi computazionali rispetto alla ricerca basata su alberi e all'apprendimento per rinforzo
- Pubblicato su arXiv: 2510.01833v2
- Si concentra sul miglioramento delle traiettorie di ragionamento
Entità
—