SAPO: Un Nuovo Metodo di Apprendimento per Rinforzo per il Ragionamento Multi-Modale
È stata introdotta una nuova tecnica di apprendimento per rinforzo denominata Segment-Aligned Policy Optimization (SAPO) per modelli linguistici di grandi dimensioni (LLM) in compiti che richiedono ragionamento multi-modale. A differenza dei metodi attuali che si concentrano sull'ottimizzazione di token o sequenze, SAPO considera passaggi di ragionamento coerenti come unità essenziali per aggiornare le politiche. Implementa un'astrazione del processo decisionale di Markov a passi per segmenti di ragionamento, incorporando stima del valore a livello di segmento, calcolo del vantaggio e campionamento per importanza. I test su benchmark di ragionamento rappresentativi indicano che SAPO supera in modo affidabile i metodi esistenti. La ricerca è disponibile su arXiv con l'identificatore 2605.01327.
Fatti principali
- SAPO sta per Segment-Aligned Policy Optimization
- È un paradigma di apprendimento per rinforzo per LLM
- Opera a livello di granularità dei passaggi di ragionamento anziché di token o sequenze complete
- Utilizza un'astrazione del processo decisionale di Markov a passi
- Include stima del valore a livello di segmento e calcolo del vantaggio
- Gli esperimenti sono stati condotti su benchmark di ragionamento rappresentativi
- SAPO supera costantemente gli approcci esistenti
- L'articolo è pubblicato su arXiv con ID 2605.01327
Entità
Istituzioni
- arXiv