I Segnali di Contaminazione dei Benchmark degli LLM sono Fragili

ai-technology · 2026-05-14

Un nuovo studio da arXiv (2509.00072v4) mette in discussione l'assunzione che il decadimento delle prestazioni dopo il cutoff nei grandi modelli linguistici indichi in modo affidabile la contaminazione dei benchmark. I ricercatori mostrano che il segnale temporale è altamente sensibile alla costruzione delle domande: le domande trasformate da LLM producono pattern temporali diversi rispetto alle domande cloze degli stessi documenti. Validano questo su LiveCodeBench, dove una semplice trasformazione guidata da LLM ha rimosso completamente il pattern temporale. Il lavoro fornisce una comprensione meccanicistica di questo fenomeno, mettendo in dubbio la robustezza del rilevamento della contaminazione tramite segnali temporali.

Fatti principali

Il decadimento delle prestazioni dopo il cutoff è stato interpretato come un segnale temporale di contaminazione del benchmark.
Lo studio dimostra che questo segnale temporale è altamente sensibile a come vengono costruite le domande del benchmark.
Le domande trasformate da LLM possono produrre pattern temporali notevolmente diversi rispetto alle domande cloze (riempimento di spazi vuoti) degli stessi documenti.
L'effetto è stato validato su LiveCodeBench, che in precedenza mostrava un chiaro decadimento post-cutoff.
Una semplice trasformazione guidata da LLM degli stessi problemi può rimuovere efficacemente il pattern temporale.
Lo studio fornisce una comprensione meccanicistica di questo fenomeno.
L'articolo è disponibile su arXiv con ID 2509.00072.
La ricerca esamina criticamente l'idea che le informazioni pubbliche rilasciate prima del cutoff di addestramento gonfino le prestazioni del modello tramite memorizzazione.

I Segnali di Contaminazione dei Benchmark degli LLM sono Fragili

Fatti principali

Entità

Istituzioni

Fonti