ARTFEED — Contemporary Art Intelligence

Seirênes: un framework di RL basato su self-play potenzia il ragionamento degli LLM contro le distrazioni

ai-technology · 2026-05-13

I ricercatori hanno introdotto Seirênes, un framework di reinforcement learning basato su self-play che trasforma le interferenze contestuali in un segnale di addestramento per i modelli linguistici di grandi dimensioni (LLM). Il framework affronta la fragilità degli LLM quando si trovano ad affrontare contesti non idealizzati, come informazioni superflue, istruzioni tangenziali o correlazioni incidentali, che differiscono dalle distribuzioni di benchmark pulite. Seirênes utilizza un ciclo di self-play avversario con parametri condivisi, in cui un singolo modello costruisce contesti fuorvianti plausibili che espongono i propri punti ciechi di ragionamento e risolve i problemi discernendo il compito essenziale da queste perturbazioni. Questo approccio co-evolve ragionatori più resilienti mettendo obiettivi concorrenti l'uno contro l'altro. Il lavoro è dettagliato in un preprint su arXiv (2605.11636).

Fatti principali

  • Seirênes è un framework di RL basato su self-play per il ragionamento degli LLM.
  • Trasforma le interferenze contestuali in un segnale di addestramento interno.
  • Il framework utilizza un ciclo di self-play avversario con parametri condivisi.
  • Un singolo modello costruisce contesti fuorvianti e risolve problemi.
  • Affronta la fragilità degli LLM in contesti non idealizzati.
  • I contesti non idealizzati includono informazioni superflue e istruzioni tangenziali.
  • L'obiettivo è co-evolvere ragionatori più resilienti.
  • Il preprint è disponibile su arXiv (2605.11636).

Entità

Istituzioni

  • arXiv

Fonti