Studio Unificato sull'Esposizione ai Dati di Pre-addestramento nei LLM

ai-technology · 2026-05-27

Un nuovo articolo di rassegna su arXiv fornisce il primo quadro unificato per lo studio dell'Esposizione ai Dati di Pre-addestramento (PDE) nei Grandi Modelli Linguistici (LLM), combinando due aree di ricerca precedentemente separate: contaminazione dei dati e inferenza di appartenenza. L'articolo formalizza la PDE a diversi livelli di esposizione, esamina i metodi di attacco e difesa, sintetizza i risultati empirici e delinea le sfide aperte e le direzioni future. Poiché i LLM diventano il paradigma dominante nella PNL e i set di dati di addestramento crescono in scala e opacità, la PDE è fondamentale per garantire l'integrità della valutazione e proteggere la privacy. La rassegna è stata presentata alla categoria Computation and Language su arXiv.

Fatti principali

Prima rassegna unificata di contaminazione dei dati e inferenza di appartenenza nel quadro PDE
La PDE determina se dati specifici sono apparsi nel corpus di pre-addestramento di un LLM
Formalizza la PDE a diversi livelli di esposizione
Esamina i metodi di attacco e difesa
Sintetizza i risultati empirici
Evidenzia le sfide aperte e le direzioni di ricerca future
Inviato ad arXiv nella categoria Computation and Language
Affronta le preoccupazioni riguardanti l'integrità della valutazione e la privacy

Studio Unificato sull'Esposizione ai Dati di Pre-addestramento nei LLM

Fatti principali

Entità

Istituzioni

Fonti