L'Ensemble LLM vince il compito di generazione multi-turno di SemEval-2026
Un ensemble eterogeneo di sette grandi modelli linguistici (LLM) ha vinto il Task B di SemEval-2026 Task 8: MTRAGEval, ottenendo una media armonica condizionata di 0,7827 e classificandosi 1° su 26 squadre. Il sistema, sviluppato da RaguTeam, utilizza un giudice GPT-4o-mini per selezionare la migliore risposta candidata per istanza tra due varianti di prompt in diverse famiglie e scale di modelli. Studi di ablazione hanno confermato che la diversità dell'ensemble è essenziale, superando costantemente qualsiasi singolo modello, incluso il baseline più forte (gpt-oss-120b, 0,6390). Il team ha anche introdotto Meno-Lite-0.1, un modello adattato al dominio da 7B che offre un forte rapporto costo-prestazioni. La loro analisi di MTRAGEval ha evidenziato limitazioni delle annotazioni e direzioni per miglioramenti. Il codice è disponibile pubblicamente su GitHub.
Fatti principali
- RaguTeam ha vinto il Task B di SemEval-2026 Task 8: MTRAGEval.
- Il sistema è un ensemble eterogeneo di sette LLM con due varianti di prompt.
- Un giudice GPT-4o-mini seleziona la migliore candidata per istanza.
- Ha ottenuto una media armonica condizionata di 0,7827.
- Si è classificato 1° su 26 squadre.
- Il baseline più forte era gpt-oss-120b con 0,6390.
- Ha introdotto Meno-Lite-0.1, un modello adattato al dominio da 7B.
- Il codice è disponibile pubblicamente su GitHub.
Entità
Istituzioni
- RaguTeam
- SemEval
- MTRAGEval
- GPT-4o-mini
- Meno-Lite-0.1
- GitHub