RIFT: Un Nuovo Framework per l'Allineamento degli LLM che Utilizza Campioni Negativi

other · 2026-04-25

I ricercatori propongono Reward Informed Fine-Tuning (RIFT), un framework per allineare i modelli linguistici di grandi dimensioni (LLM) che riutilizza i campioni negativi invece di scartarli. A differenza del Supervised Fine-Tuning (SFT), che si basa su dati costosi di esperti, e del Rejection Sampling Fine-Tuning (RFT), che utilizza una soglia rigida per scartare le traiettorie negative, RIFT ripesa la perdita con ricompense scalari per apprendere sia da campioni positivi che negativi auto-generati. Una formulazione di perdita stabilizzata previene il collasso dell'addestramento causato dall'integrazione ingenua delle ricompense. Esperimenti su benchmark matematici con vari modelli di base mostrano che RIFT supera costantemente RFT. L'articolo è disponibile su arXiv.

Fatti principali

1. RIFT sta per Reward Informed Fine-Tuning.
2. RIFT riutilizza le traiettorie negative ripesando la perdita con ricompense scalari.
3. RIFT affronta l'inefficienza dei dati in SFT e RFT.
4. Una formulazione di perdita stabilizzata garantisce robustezza numerica.
5. Esperimenti su benchmark matematici mostrano che RIFT supera RFT.
6. L'articolo è pubblicato su arXiv con ID 2601.09253.
7. RIFT utilizza tutti i campioni auto-generati, sia positivi che negativi.
8. Il framework è progettato per l'allineamento degli LLM.

RIFT: Un Nuovo Framework per l'Allineamento degli LLM che Utilizza Campioni Negativi

Fatti principali

Entità

Istituzioni

Fonti