I LLM potrebbero memorizzare meccanicamente i benchmark, gonfiando i punteggi
Un recente studio pubblicato su arXiv (2504.08300) mette in dubbio l'efficacia delle valutazioni basate su benchmark per i modelli linguistici di grandi dimensioni (LLM), incluse le domande a scelta multipla (MCQ) e le domande aperte (OEQ). Gli autori reinterpretano la contaminazione dei benchmark come un aspetto fondamentale del processo di apprendimento, cercando di distinguere tra sviluppo autentico di abilità e mera memorizzazione. È interessante notare che hanno osservato che gli LLM tendono a ottenere risultati peggiori sui benchmark memorizzati rispetto a quelli non memorizzati, indicando una coesistenza di apprendimento meccanico e vera comprensione. La ricerca suggerisce strategie per chiarire questi problemi, sottolineando che i miglioramenti delle prestazioni dovuti alla contaminazione possono portare a risultati di valutazione fuorvianti.
Fatti principali
- Lo studio ridefinisce la contaminazione dei benchmark come inerente all'apprendimento.
- Gli LLM ottengono risultati peggiori sui benchmark memorizzati rispetto a quelli non memorizzati.
- La memorizzazione meccanica e l'apprendimento genuino delle capacità coesistono.
- La contaminazione dei benchmark gonfia i punteggi di valutazione degli LLM.
- Le domande a scelta multipla e aperte sono metodi di valutazione comuni.
- La ricerca mira a separare la memorizzazione dall'apprendimento genuino.
- L'esposizione pregressa ai benchmark di test durante l'addestramento causa prestazioni gonfiate.
- I risultati mettono in discussione l'affidabilità degli attuali benchmark di valutazione degli LLM.
Entità
Istituzioni
- arXiv