Studio Unificato sull'Esposizione ai Dati di Pre-addestramento nei LLM
Un nuovo articolo di rassegna su arXiv fornisce il primo quadro unificato per lo studio dell'Esposizione ai Dati di Pre-addestramento (PDE) nei Grandi Modelli Linguistici (LLM), combinando due aree di ricerca precedentemente separate: contaminazione dei dati e inferenza di appartenenza. L'articolo formalizza la PDE a diversi livelli di esposizione, esamina i metodi di attacco e difesa, sintetizza i risultati empirici e delinea le sfide aperte e le direzioni future. Poiché i LLM diventano il paradigma dominante nella PNL e i set di dati di addestramento crescono in scala e opacità, la PDE è fondamentale per garantire l'integrità della valutazione e proteggere la privacy. La rassegna è stata presentata alla categoria Computation and Language su arXiv.
Fatti principali
- Prima rassegna unificata di contaminazione dei dati e inferenza di appartenenza nel quadro PDE
- La PDE determina se dati specifici sono apparsi nel corpus di pre-addestramento di un LLM
- Formalizza la PDE a diversi livelli di esposizione
- Esamina i metodi di attacco e difesa
- Sintetizza i risultati empirici
- Evidenzia le sfide aperte e le direzioni di ricerca future
- Inviato ad arXiv nella categoria Computation and Language
- Affronta le preoccupazioni riguardanti l'integrità della valutazione e la privacy
Entità
Istituzioni
- arXiv