Descrittori di Correlazione Semantica Identificano i Dataset di Addestramento
Un nuovo metodo di fingerprinting a scatola bianca chiamato descrittori di correlazione semantica (SCD) può identificare su quale dataset è stato addestrato un modello analizzando le correlazioni spurie che interiorizza. I ricercatori sostengono che i dataset lasciano tracce uniche nella struttura di correlazione semantica appresa dal modello—regolarità incidentali predittive all'interno di un dataset ma non causali per il compito sottostante. Questo approccio va oltre i metodi esistenti di inferenza di appartenenza a livello di dataset che si basano su punteggi di confidenza, perdite, margini, campioni generati o risposte a query. In diagnostiche controllate leave-one-dataset-out, gli SCD separano perfettamente le coppie di dataset corrispondenti da quelle non corrispondenti.
Fatti principali
- Gli SCD catturano la struttura di correlazione semantica appresa da un modello.
- Il metodo identifica tracce specifiche del dataset da correlazioni spurie.
- Supera gli approcci esistenti basati su evidenze comportamentali o distributive.
- Separazione perfetta ottenuta in diagnostiche leave-one-dataset-out.
- L'approccio a scatola bianca richiede l'accesso al modello.
- Pubblicato su arXiv con ID 2605.30462.
- Si concentra sull'inferenza di appartenenza a livello di dataset.
- Le tracce sono regolarità incidentali, non caratteristiche causali del compito.
Entità
Istituzioni
- arXiv