NumLeak: Benchmark pubblici come etichette latenti nei modelli foundation

ai-technology · 2026-06-01

Una recente indagine ha svelato NumLeak, un framework progettato per valutare che i principali modelli linguistici di frontiera tendono a memorizzare benchmark numerici dai loro dataset di pre-addestramento invece di mostrare reali capacità fuori campione. Questo framework integra sonde al confine delle API su modelli operativi con validazione white-box su un LM causale aperto. I risultati indicano che questi modelli possono ricordare il rendimento in eccesso del mercato Fama-French con valori di r di Pearson raggruppati compresi tra 0.97 e 0.99, mantenendo un margine di 0.15 entro 25 punti base su cinque fattori correlati. Una precisione simile si osserva per la disoccupazione statunitense, l'inflazione CPI e la temperatura NOAA. Tuttavia, in un recente holdout, il tasso di parsing scende al 21-57%, mentre il valore r rimane intorno a 0.99 per i mesi risposti, suggerendo un bias di memorizzazione. I test white-box riproducono la dose-risposta, e la classifica logprob rivela una memorizzazione trascurata dalla generazione open-ended, indicando che le sonde black-box chiuse alle API potrebbero sottostimare questo canale. Questo studio sottolinea che i benchmark numerici pubblici presenti nel pre-addestramento portano le valutazioni condizionate a una data a riflettere un richiamo memorizzato piuttosto che una reale abilità.

Fatti principali

NumLeak è un framework di misurazione per rilevare la memorizzazione nei LLM.
I modelli linguistici di frontiera di alto livello ricordano il rendimento in eccesso del mercato Fama-French con r di Pearson=0.97-0.99.
I modelli rimangono entro 0.15 entro 25pb su cinque fattori correlati.
Fedeltà comparabile appare su disoccupazione statunitense, inflazione CPI e temperatura NOAA.
Su un holdout di recente rilascio, il tasso di parsing crolla al 21-57% ma r rimane ~0.99 sui mesi risposti.
Asimmetria rifiuto-o-richiamo prevista da un canale di memorizzazione.
L'esperimento white-box riproduce la dose-risposta.
La classifica logprob rileva la memorizzazione che la generazione open-ended non coglie.

NumLeak: Benchmark pubblici come etichette latenti nei modelli foundation

Fatti principali

Entità

Istituzioni

Fonti