I Modelli Ensemble Gemma Raggiungono il Secondo Posto nel Rilevamento Multilingue della Polarizzazione
Un team di ricercatori ha creato un sistema per il Task 9 di SemEval-2026: Rilevamento Multilingue della Polarizzazione, che prevede la classificazione binaria in 22 lingue. La loro metodologia prevede il fine-tuning di singoli modelli Gemma 3 (con 12B e 27B parametri) per ogni lingua tramite Low-Rank Adaptation (LoRA), potenziata da dati sintetici generati da GPT-4o-mini utilizzando tre metodi: generazione diretta, parafrasi e creazione di coppie contrastive. Hanno implementato un processo di filtraggio della qualità a più fasi che includeva la deduplicazione basata su embedding. Regolando le soglie per ogni lingua sul set di sviluppo, hanno ottenuto miglioramenti dell'F1 del 2–4% senza riaddestramento. Gli ensemble pesati delle previsioni dei modelli 12B e 27B, insieme alla selezione di strategie specifiche per lingua, hanno prodotto un punteggio macro-F1 medio di 0,811, posizionandoli al 2° posto assoluto, con i primi posti in 3 lingue e tra i primi 3 in 8 lingue.
Fatti principali
- 1. Task: SemEval-2026 Task 9, rilevamento multilingue della polarizzazione, classificazione binaria, 22 lingue
- 2. Modelli: Fine-tuning di Gemma 3 (12B e 27B parametri) per lingua con LoRA
- 3. Data augmentation: Dati sintetici da GPT-4o-mini tramite generazione diretta, parafrasi, creazione di coppie contrastive
- 4. Filtraggio qualità: Pipeline a più fasi con deduplicazione basata su embedding
- 5. Regolazione soglie: Per lingua sul set di sviluppo, miglioramento F1 del 2–4%
- 6. Ensemble: Ensemble pesati delle previsioni 12B e 27B con selezione di strategia per lingua
- 7. Risultato: Macro-F1 medio 0,811, 2° posto assoluto, 1° in 3 lingue, top-3 in 8 lingue
- 8. Fonte: arXiv:2605.05159
Entità
Istituzioni
- SemEval
- arXiv