ARTFEED — Contemporary Art Intelligence

Descrittori di Correlazione Semantica Identificano i Dataset di Addestramento

ai-technology · 2026-06-01

Un nuovo metodo di fingerprinting a scatola bianca chiamato descrittori di correlazione semantica (SCD) può identificare su quale dataset è stato addestrato un modello analizzando le correlazioni spurie che interiorizza. I ricercatori sostengono che i dataset lasciano tracce uniche nella struttura di correlazione semantica appresa dal modello—regolarità incidentali predittive all'interno di un dataset ma non causali per il compito sottostante. Questo approccio va oltre i metodi esistenti di inferenza di appartenenza a livello di dataset che si basano su punteggi di confidenza, perdite, margini, campioni generati o risposte a query. In diagnostiche controllate leave-one-dataset-out, gli SCD separano perfettamente le coppie di dataset corrispondenti da quelle non corrispondenti.

Fatti principali

  • Gli SCD catturano la struttura di correlazione semantica appresa da un modello.
  • Il metodo identifica tracce specifiche del dataset da correlazioni spurie.
  • Supera gli approcci esistenti basati su evidenze comportamentali o distributive.
  • Separazione perfetta ottenuta in diagnostiche leave-one-dataset-out.
  • L'approccio a scatola bianca richiede l'accesso al modello.
  • Pubblicato su arXiv con ID 2605.30462.
  • Si concentra sull'inferenza di appartenenza a livello di dataset.
  • Le tracce sono regolarità incidentali, non caratteristiche causali del compito.

Entità

Istituzioni

  • arXiv

Fonti