L'Ensemble LLM vince il compito di generazione multi-turno di SemEval-2026

ai-technology · 2026-05-07

Un ensemble eterogeneo di sette grandi modelli linguistici (LLM) ha vinto il Task B di SemEval-2026 Task 8: MTRAGEval, ottenendo una media armonica condizionata di 0,7827 e classificandosi 1° su 26 squadre. Il sistema, sviluppato da RaguTeam, utilizza un giudice GPT-4o-mini per selezionare la migliore risposta candidata per istanza tra due varianti di prompt in diverse famiglie e scale di modelli. Studi di ablazione hanno confermato che la diversità dell'ensemble è essenziale, superando costantemente qualsiasi singolo modello, incluso il baseline più forte (gpt-oss-120b, 0,6390). Il team ha anche introdotto Meno-Lite-0.1, un modello adattato al dominio da 7B che offre un forte rapporto costo-prestazioni. La loro analisi di MTRAGEval ha evidenziato limitazioni delle annotazioni e direzioni per miglioramenti. Il codice è disponibile pubblicamente su GitHub.

Fatti principali

RaguTeam ha vinto il Task B di SemEval-2026 Task 8: MTRAGEval.
Il sistema è un ensemble eterogeneo di sette LLM con due varianti di prompt.
Un giudice GPT-4o-mini seleziona la migliore candidata per istanza.
Ha ottenuto una media armonica condizionata di 0,7827.
Si è classificato 1° su 26 squadre.
Il baseline più forte era gpt-oss-120b con 0,6390.
Ha introdotto Meno-Lite-0.1, un modello adattato al dominio da 7B.
Il codice è disponibile pubblicamente su GitHub.

Entità

Istituzioni

RaguTeam
SemEval
MTRAGEval
GPT-4o-mini
Meno-Lite-0.1
GitHub

Fonti

arXiv cs.AI — 2026-05-07