Il framework Metacognizione-come-Ricompensa migliora il ragionamento dei LLM
Un nuovo framework di apprendimento per rinforzo chiamato Metacognizione-come-Ricompensa (MaR) migliora il ragionamento nei modelli linguistici di grandi dimensioni incorporando conoscenze metacognitive e segnali di regolazione. MaR affronta i limiti dei paradigmi di ricompensa esistenti: RLVR si basa su segnali di risultato provenienti da controlli eseguibili o risposte corrette, offrendo una guida intermedia limitata; RaR utilizza rubriche in linguaggio naturale ma richiede una progettazione specifica per ogni istanza. MaR introduce due dimensioni generali del processo—conoscenza metacognitiva per identificare informazioni rilevanti per il compito senza rubriche artigianali, e regolazione metacognitiva per pianificare e aggiustare il ragionamento—per fornire una guida alla ricompensa. Il framework è dettagliato nell'articolo arXiv 2605.23384.
Fatti principali
- 1. MaR sta per Metacognizione-come-Ricompensa
- 2. Il framework è ispirato alla metacognizione
- 3. Affronta i limiti di RLVR e RaR
- 4. Due dimensioni: conoscenza metacognitiva e regolazione metacognitiva
- 5. La conoscenza metacognitiva identifica informazioni rilevanti per il compito senza rubriche specifiche per istanza
- 6. La regolazione metacognitiva pianifica e aggiusta il processo di ragionamento
- 7. L'articolo è disponibile su arXiv con ID 2605.23384
- 8. Il tipo di annuncio è cross
Entità
Istituzioni
- arXiv