IRIS: Un Nuovo Framework di Self-Play Fine-Tuning per LLM

ai-technology · 2026-04-25

È stato introdotto un nuovo framework di self-play fine-tuning, chiamato IRIS (Interpolative Rényi Iterative Self-play), per modelli linguistici di grandi dimensioni. Questo approccio migliora i modelli oltre il tradizionale supervised fine-tuning, eliminando la necessità di annotazioni umane confrontando le uscite annotate con quelle generate dal modello stesso. Le tecniche attuali come SPIN (basato su KL), SPACE (Jensen-Shannon tramite stima contrastiva del rumore) e SPIF (regolarizzato χ²) eccellono ciascuna in scenari diversi in base al divario distribuzionale tra il modello e il target; tuttavia, nessuna singola divergenza raggiunge dinamiche di apprendimento ottimali in tutte le fasi di addestramento. IRIS impiega un obiettivo basato su Rényi con un parametro d'ordine flessibile α, suddividendosi in due componenti di rischio inclinate indipendenti per dati annotati e sintetici, con pesi di importanza esponenziali gestiti da α. Questo framework cerca di bilanciare efficacemente l'apprendimento da dataset reali e generati. La ricerca è disponibile su arXiv con ID 2604.20933.

Fatti principali

1. IRIS sta per Interpolative Rényi Iterative Self-play.
2. È un framework di self-play fine-tuning per modelli linguistici di grandi dimensioni.
3. Il self-play fine-tuning migliora i modelli oltre il supervised fine-tuning senza annotazioni umane.
4. I metodi esistenti includono SPIN (basato su KL), SPACE (Jensen-Shannon) e SPIF (regolarizzato χ²).
5. IRIS utilizza un obiettivo basato su Rényi con parametro d'ordine α regolabile.
6. L'obiettivo si scompone in due termini di rischio inclinati indipendenti.
7. I pesi di importanza esponenziali sono controllati da α.
8. L'articolo è su arXiv (ID 2604.20933).

IRIS: Un Nuovo Framework di Self-Play Fine-Tuning per LLM

Fatti principali

Entità

Istituzioni

Fonti