GRPO potenzia i modelli MT encoder-decoder senza dati di riferimento

ai-technology · 2026-05-18

Una recente indagine introduce l'ottimizzazione delle politiche relative di gruppo (GRPO) nei sistemi di traduzione automatica encoder-decoder, concentrandosi su NLLB-200 con 600M e 1.3B parametri. Questo metodo utilizza un premio ibrido senza riferimento che integra LaBSE e COMET-Kiwi, eliminando la necessità di dati paralleli durante il fine-tuning. Lo studio mostra progressi costanti in 13 lingue diverse, ottenendo miglioramenti fino a +5.03 chrF++ per il cinese tradizionale. Notevolmente, compete con il fine-tuning supervisionato a 3 epoche in lingue morfologicamente complesse senza richiedere dati nella lingua di destinazione. La ricerca evidenzia che i maggiori guadagni si verificano quando le prestazioni di base sono più basse e la discriminabilità del premio è più alta, indicando la sua efficacia in contesti con poche risorse. Questo lavoro colma una lacuna nel fine-tuning con apprendimento per rinforzo per la traduzione automatica, che si è concentrato principalmente su modelli LLM solo decoder con oltre 7 miliardi di parametri, mentre le applicazioni pratiche dipendono da modelli Seq2Seq encoder-decoder.

Fatti principali

GRPO applicato ai modelli encoder-decoder NLLB-200 (600M e 1.3B)
Premio ibrido senza riferimento che utilizza LaBSE e COMET-Kiwi
Nessun dato parallelo richiesto al momento del fine-tuning
Valutato su 13 lingue tipologicamente diverse
Miglioramento fino a +5.03 chrF++ per il cinese tradizionale
Competitivo con il fine-tuning supervisionato a 3 epoche su lingue morfologicamente complesse
Maggiori guadagni dove le prestazioni di base sono più deboli
Colma una lacuna nel fine-tuning RL per modelli MT Seq2Seq

Entità

—

Fonti

arXiv cs.AI — 2026-05-18