TRACER: Framework Semantico per il Rilevamento di Contaminazione nei Codici LLM

ai-technology · 2026-05-26

Un team di ricercatori ha creato TRACER, un framework progettato per rilevare la contaminazione dei dati nei modelli linguistici di grandi dimensioni (LLM) con un focus sulla semantica. A differenza degli approcci convenzionali che privilegiano le corrispondenze esatte, TRACER valuta la contaminazione attraverso tre dimensioni semantiche: Funzionalmente Identico, Quasi Identico e Logica Condivisa. Utilizza una pipeline di rilevamento dal generale al dettaglio. Inoltre, i ricercatori hanno stabilito il primo benchmark per il rilevamento granulare della contaminazione del codice, comprendente tre benchmark popolari e tre dataset rappresentativi post-addestramento. TRACER ha mostrato risultati impressionanti su varie architetture LLM, con GPT-5 che ha raggiunto un punteggio F1 di 0,91 per il rilevamento granulare e 0,92 per il rilevamento binario, superando le tecniche esistenti del 42%-217%. La sua efficacia è stata ulteriormente confermata attraverso studi di ablazione e analisi degli errori.

Fatti principali

TRACER è un framework semantico per il rilevamento granulare della contaminazione del codice nei code LLM.
Modella la contaminazione a tre livelli: Funzionalmente Identico, Quasi Identico e Logica Condivisa.
Il rilevamento utilizza una pipeline dal generale al dettaglio.
Introdotto il primo benchmark per il rilevamento granulare della contaminazione del codice.
Il benchmark copre tre benchmark ampiamente utilizzati e tre dataset post-addestramento.
GPT-5 ha raggiunto un F1 di 0,91 nel rilevamento granulare.
F1 di 0,92 nel rilevamento binario, superando i metodi esistenti del 42%-217%.
Sono stati condotti studi di ablazione e analisi degli errori.

TRACER: Framework Semantico per il Rilevamento di Contaminazione nei Codici LLM

Fatti principali

Entità

Istituzioni

Fonti