Il Framework STRATAGEM Migliora il Trasferimento del Ragionamento nei Modelli Linguistici Attraverso l'Apprendimento Basato su Giochi
Un recente articolo di ricerca, "Stratagem: Learning Transferable Reasoning via Trajectory-Modulated Game Self-Play", presenta un metodo innovativo per migliorare le capacità di ragionamento generale nei modelli linguistici. Affronta due ostacoli chiave al trasferimento del ragionamento: la specificità di dominio, dove i comportamenti appresi sono legati alla semantica del gioco, e la stasi contestuale, dove scenari di gioco immutabili ostacolano lo sviluppo di ragionamenti avanzati. Il framework STRATAGEM promuove traiettorie che mostrano ragionamento astratto e indipendente dal dominio attraverso un Coefficiente di Trasferibilità del Ragionamento, incoraggiando allo stesso tempo una crescita adattiva del ragionamento con un Premio per l'Evoluzione del Ragionamento. I giochi servono come ambiente efficace per favorire queste abilità, richiedendo pianificazione strategica, inferenza probabilistica e processo decisionale flessibile. I metodi tradizionali di auto-gioco si concentrano solo sui risultati finali del gioco, senza un modo per differenziare il ragionamento trasferibile dalle strategie specifiche del gioco. Esperimenti nel ragionamento matematico, ragionamento generale e generazione di codice convalidano il successo del framework. Questo articolo è disponibile su arXiv con l'identificatore arXiv:2604.17696v1.
Fatti principali
- L'articolo di ricerca "Stratagem: Learning Transferable Reasoning via Trajectory-Modulated Game Self-Play" è stato pubblicato su arXiv
- L'articolo introduce il framework STRATAGEM per sviluppare capacità di ragionamento generale nei modelli linguistici
- STRATAGEM affronta la specificità di dominio e la stasi contestuale come barriere al trasferimento del ragionamento
- Il framework utilizza un Coefficiente di Trasferibilità del Ragionamento per rafforzare il ragionamento indipendente dal dominio
- Un Premio per l'Evoluzione del Ragionamento incentiva lo sviluppo adattivo del ragionamento
- I giochi forniscono un paradigma per sviluppare capacità di ragionamento che richiedono pianificazione strategica e processo decisionale
- Gli approcci esistenti di auto-gioco si basano esclusivamente sugli esiti finali del gioco senza distinguere modelli trasferibili
- Sono stati condotti esperimenti su benchmark di ragionamento matematico, ragionamento generale e generazione di codice
Entità
Istituzioni
- arXiv