ARTFEED — Contemporary Art Intelligence

CroCo: Ottimizzazione Contrastiva delle Preferenze Cross-Linguale su Auto-Generazioni

ai-technology · 2026-05-27

Un nuovo metodo chiamato CroCo estende l'ottimizzazione contrastiva delle preferenze a più lingue senza richiedere annotazioni di preferenza specifiche per lingua. Utilizzando un modello di ricompensa addestrato su preferenze in inglese su una base multilingue, CroCo produce utili classifiche intra-lingua in 14 lingue ad alta e bassa risorsa. L'approccio migliora le prestazioni nella maggior parte delle configurazioni, prevenendo al contempo il dimenticato catastrofico del fine-tuning supervisionato. I guadagni dipendono dai dati on-policy; le risposte off-policy riducono i benefici e l'ottimizzazione online delle preferenze fallisce.

Fatti principali

  • CroCo estende l'ottimizzazione contrastiva delle preferenze a più lingue.
  • Non è necessaria alcuna annotazione di preferenza specifica per lingua.
  • Modello di ricompensa addestrato su preferenze in inglese su base multilingue.
  • Valutato su 14 lingue ad alta e bassa risorsa.
  • Migliora le prestazioni nella maggior parte delle configurazioni.
  • Previene il dimenticato catastrofico del fine-tuning supervisionato.
  • I guadagni richiedono dati on-policy.
  • Le risposte off-policy riducono i benefici; l'ottimizzazione online delle preferenze fallisce.

Entità

Fonti