Il troncamento Zero-CoT espone la contaminazione del ragionamento nei LLM
I ricercatori hanno proposto un nuovo metodo, Zero-CoT Probe (ZCP), per rilevare la contaminazione elusiva dei dati nei grandi modelli linguistici (LLM). Lo studio, pubblicato su arXiv (2605.21856), rivela che i passaggi di ragionamento generati da un modello possono mascherare la memorizzazione dei dati di benchmark. ZCP tronca il processo Chain-of-Thought (CoT) per esporre mappature abbreviate, isolando la memorizzazione dalla genuina risoluzione dei problemi. Ciò affronta il problema degli editori malintenzionati che parafrasano i dati di benchmark per aumentare artificialmente le prestazioni in classifica, un problema che gli attuali metodi di rilevamento faticano a gestire.
Fatti principali
- L'articolo arXiv 2605.21856 introduce Zero-CoT Probe (ZCP)
- ZCP rileva la contaminazione elusiva dei dati nei LLM
- Il metodo tronca il Chain-of-Thought per esporre la memorizzazione
- La contaminazione elusiva implica la parafrasi dei dati di benchmark
- Gli attuali metodi di rilevamento falliscono contro la contaminazione subdola
- I passaggi di ragionamento del modello possono mascherare la memorizzazione sottostante
- ZCP è un metodo di rilevamento a scatola nera
Entità
Istituzioni
- arXiv