Seirênes: un framework di RL basato su self-play potenzia il ragionamento degli LLM contro le distrazioni
I ricercatori hanno introdotto Seirênes, un framework di reinforcement learning basato su self-play che trasforma le interferenze contestuali in un segnale di addestramento per i modelli linguistici di grandi dimensioni (LLM). Il framework affronta la fragilità degli LLM quando si trovano ad affrontare contesti non idealizzati, come informazioni superflue, istruzioni tangenziali o correlazioni incidentali, che differiscono dalle distribuzioni di benchmark pulite. Seirênes utilizza un ciclo di self-play avversario con parametri condivisi, in cui un singolo modello costruisce contesti fuorvianti plausibili che espongono i propri punti ciechi di ragionamento e risolve i problemi discernendo il compito essenziale da queste perturbazioni. Questo approccio co-evolve ragionatori più resilienti mettendo obiettivi concorrenti l'uno contro l'altro. Il lavoro è dettagliato in un preprint su arXiv (2605.11636).
Fatti principali
- Seirênes è un framework di RL basato su self-play per il ragionamento degli LLM.
- Trasforma le interferenze contestuali in un segnale di addestramento interno.
- Il framework utilizza un ciclo di self-play avversario con parametri condivisi.
- Un singolo modello costruisce contesti fuorvianti e risolve problemi.
- Affronta la fragilità degli LLM in contesti non idealizzati.
- I contesti non idealizzati includono informazioni superflue e istruzioni tangenziali.
- L'obiettivo è co-evolvere ragionatori più resilienti.
- Il preprint è disponibile su arXiv (2605.11636).
Entità
Istituzioni
- arXiv