NumLeak: Benchmark pubblici come etichette latenti nei modelli foundation
Una recente indagine ha svelato NumLeak, un framework progettato per valutare che i principali modelli linguistici di frontiera tendono a memorizzare benchmark numerici dai loro dataset di pre-addestramento invece di mostrare reali capacità fuori campione. Questo framework integra sonde al confine delle API su modelli operativi con validazione white-box su un LM causale aperto. I risultati indicano che questi modelli possono ricordare il rendimento in eccesso del mercato Fama-French con valori di r di Pearson raggruppati compresi tra 0.97 e 0.99, mantenendo un margine di 0.15 entro 25 punti base su cinque fattori correlati. Una precisione simile si osserva per la disoccupazione statunitense, l'inflazione CPI e la temperatura NOAA. Tuttavia, in un recente holdout, il tasso di parsing scende al 21-57%, mentre il valore r rimane intorno a 0.99 per i mesi risposti, suggerendo un bias di memorizzazione. I test white-box riproducono la dose-risposta, e la classifica logprob rivela una memorizzazione trascurata dalla generazione open-ended, indicando che le sonde black-box chiuse alle API potrebbero sottostimare questo canale. Questo studio sottolinea che i benchmark numerici pubblici presenti nel pre-addestramento portano le valutazioni condizionate a una data a riflettere un richiamo memorizzato piuttosto che una reale abilità.
Fatti principali
- NumLeak è un framework di misurazione per rilevare la memorizzazione nei LLM.
- I modelli linguistici di frontiera di alto livello ricordano il rendimento in eccesso del mercato Fama-French con r di Pearson=0.97-0.99.
- I modelli rimangono entro 0.15 entro 25pb su cinque fattori correlati.
- Fedeltà comparabile appare su disoccupazione statunitense, inflazione CPI e temperatura NOAA.
- Su un holdout di recente rilascio, il tasso di parsing crolla al 21-57% ma r rimane ~0.99 sui mesi risposti.
- Asimmetria rifiuto-o-richiamo prevista da un canale di memorizzazione.
- L'esperimento white-box riproduce la dose-risposta.
- La classifica logprob rileva la memorizzazione che la generazione open-ended non coglie.
Entità
Istituzioni
- arXiv