ARTFEED — Contemporary Art Intelligence

L'Ensemble LLM vince il compito di generazione multi-turno di SemEval-2026

ai-technology · 2026-05-07

Un ensemble eterogeneo di sette grandi modelli linguistici (LLM) ha vinto il Task B di SemEval-2026 Task 8: MTRAGEval, ottenendo una media armonica condizionata di 0,7827 e classificandosi 1° su 26 squadre. Il sistema, sviluppato da RaguTeam, utilizza un giudice GPT-4o-mini per selezionare la migliore risposta candidata per istanza tra due varianti di prompt in diverse famiglie e scale di modelli. Studi di ablazione hanno confermato che la diversità dell'ensemble è essenziale, superando costantemente qualsiasi singolo modello, incluso il baseline più forte (gpt-oss-120b, 0,6390). Il team ha anche introdotto Meno-Lite-0.1, un modello adattato al dominio da 7B che offre un forte rapporto costo-prestazioni. La loro analisi di MTRAGEval ha evidenziato limitazioni delle annotazioni e direzioni per miglioramenti. Il codice è disponibile pubblicamente su GitHub.

Fatti principali

  • RaguTeam ha vinto il Task B di SemEval-2026 Task 8: MTRAGEval.
  • Il sistema è un ensemble eterogeneo di sette LLM con due varianti di prompt.
  • Un giudice GPT-4o-mini seleziona la migliore candidata per istanza.
  • Ha ottenuto una media armonica condizionata di 0,7827.
  • Si è classificato 1° su 26 squadre.
  • Il baseline più forte era gpt-oss-120b con 0,6390.
  • Ha introdotto Meno-Lite-0.1, un modello adattato al dominio da 7B.
  • Il codice è disponibile pubblicamente su GitHub.

Entità

Istituzioni

  • RaguTeam
  • SemEval
  • MTRAGEval
  • GPT-4o-mini
  • Meno-Lite-0.1
  • GitHub

Fonti