Seirênes: un framework di RL basato su self-play potenzia il ragionamento degli LLM contro le distrazioni

ai-technology · 2026-05-13

I ricercatori hanno introdotto Seirênes, un framework di reinforcement learning basato su self-play che trasforma le interferenze contestuali in un segnale di addestramento per i modelli linguistici di grandi dimensioni (LLM). Il framework affronta la fragilità degli LLM quando si trovano ad affrontare contesti non idealizzati, come informazioni superflue, istruzioni tangenziali o correlazioni incidentali, che differiscono dalle distribuzioni di benchmark pulite. Seirênes utilizza un ciclo di self-play avversario con parametri condivisi, in cui un singolo modello costruisce contesti fuorvianti plausibili che espongono i propri punti ciechi di ragionamento e risolve i problemi discernendo il compito essenziale da queste perturbazioni. Questo approccio co-evolve ragionatori più resilienti mettendo obiettivi concorrenti l'uno contro l'altro. Il lavoro è dettagliato in un preprint su arXiv (2605.11636).

Fatti principali

Seirênes è un framework di RL basato su self-play per il ragionamento degli LLM.
Trasforma le interferenze contestuali in un segnale di addestramento interno.
Il framework utilizza un ciclo di self-play avversario con parametri condivisi.
Un singolo modello costruisce contesti fuorvianti e risolve problemi.
Affronta la fragilità degli LLM in contesti non idealizzati.
I contesti non idealizzati includono informazioni superflue e istruzioni tangenziali.
L'obiettivo è co-evolvere ragionatori più resilienti.
Il preprint è disponibile su arXiv (2605.11636).

Seirênes: un framework di RL basato su self-play potenzia il ragionamento degli LLM contro le distrazioni

Fatti principali

Entità

Istituzioni

Fonti