I dataset di benchmark per LLM devono essere resistenti alla contaminazione
Un nuovo articolo su arXiv (2605.19999) sostiene che i dataset di benchmark per LLM dovrebbero essere progettati per essere resistenti alla contaminazione, ovvero non apprendibili dai modelli ma comunque in grado di supportare l'inferenza. Gli autori evidenziano la diffusa contaminazione degli attuali benchmark nei corpora di pre-addestramento, che ne mina l'affidabilità. Propongono di sfruttare l'asimmetria tra i pipeline di inferenza e addestramento nelle architetture Transformer per raggiungere questo obiettivo, e chiedono progressi matematici per garantire l'interoperabilità tra diverse architetture LLM.
Fatti principali
- L'articolo sostiene che i dataset di benchmark dovrebbero essere resistenti alla contaminazione (non apprendibili ma in grado di supportare l'inferenza).
- Gli attuali benchmark sono spesso contaminati dall'inclusione nei corpora di pre-addestramento.
- La contaminazione riduce il valore del benchmark per misurare la generalizzazione del modello.
- Gli autori propongono di utilizzare l'asimmetria tra i pipeline di inferenza e addestramento nei Transformer.
- Sono necessari progressi matematici per l'interoperabilità tra architetture.
- L'articolo è un invito all'azione per la comunità di ricerca.
- ID arXiv: 2605.19999.
- Pubblicato come preprint su arXiv.
Entità
Istituzioni
- arXiv