CroCo: Ottimizzazione Contrastiva delle Preferenze Cross-Linguale su Auto-Generazioni
Un nuovo metodo chiamato CroCo estende l'ottimizzazione contrastiva delle preferenze a più lingue senza richiedere annotazioni di preferenza specifiche per lingua. Utilizzando un modello di ricompensa addestrato su preferenze in inglese su una base multilingue, CroCo produce utili classifiche intra-lingua in 14 lingue ad alta e bassa risorsa. L'approccio migliora le prestazioni nella maggior parte delle configurazioni, prevenendo al contempo il dimenticato catastrofico del fine-tuning supervisionato. I guadagni dipendono dai dati on-policy; le risposte off-policy riducono i benefici e l'ottimizzazione online delle preferenze fallisce.
Fatti principali
- CroCo estende l'ottimizzazione contrastiva delle preferenze a più lingue.
- Non è necessaria alcuna annotazione di preferenza specifica per lingua.
- Modello di ricompensa addestrato su preferenze in inglese su base multilingue.
- Valutato su 14 lingue ad alta e bassa risorsa.
- Migliora le prestazioni nella maggior parte delle configurazioni.
- Previene il dimenticato catastrofico del fine-tuning supervisionato.
- I guadagni richiedono dati on-policy.
- Le risposte off-policy riducono i benefici; l'ottimizzazione online delle preferenze fallisce.
Entità
—