RIFT: Un Nuovo Framework per l'Allineamento degli LLM che Utilizza Campioni Negativi
I ricercatori propongono Reward Informed Fine-Tuning (RIFT), un framework per allineare i modelli linguistici di grandi dimensioni (LLM) che riutilizza i campioni negativi invece di scartarli. A differenza del Supervised Fine-Tuning (SFT), che si basa su dati costosi di esperti, e del Rejection Sampling Fine-Tuning (RFT), che utilizza una soglia rigida per scartare le traiettorie negative, RIFT ripesa la perdita con ricompense scalari per apprendere sia da campioni positivi che negativi auto-generati. Una formulazione di perdita stabilizzata previene il collasso dell'addestramento causato dall'integrazione ingenua delle ricompense. Esperimenti su benchmark matematici con vari modelli di base mostrano che RIFT supera costantemente RFT. L'articolo è disponibile su arXiv.
Fatti principali
- 1. RIFT sta per Reward Informed Fine-Tuning.
- 2. RIFT riutilizza le traiettorie negative ripesando la perdita con ricompense scalari.
- 3. RIFT affronta l'inefficienza dei dati in SFT e RFT.
- 4. Una formulazione di perdita stabilizzata garantisce robustezza numerica.
- 5. Esperimenti su benchmark matematici mostrano che RIFT supera RFT.
- 6. L'articolo è pubblicato su arXiv con ID 2601.09253.
- 7. RIFT utilizza tutti i campioni auto-generati, sia positivi che negativi.
- 8. Il framework è progettato per l'allineamento degli LLM.
Entità
Istituzioni
- arXiv