L'antidistillazione tramite impronte digitali rileva il furto di modelli LLM

ai-technology · 2026-05-18

I ricercatori hanno sviluppato l'antidistillazione tramite impronte digitali (ADFP), un nuovo metodo per rilevare quando un modello studente di terze parti è stato addestrato sugli output di un grande modello linguistico di frontiera senza autorizzazione. Le tecniche esistenti di impronte digitali si basano su perturbazioni euristiche che degradano la qualità della generazione per garantire che l'impronta venga interiorizzata dallo studente. ADFP allinea l'obiettivo dell'impronta digitale con le dinamiche di apprendimento dello studente, utilizzando un modello proxy per identificare e campionare token che massimizzano la rilevabilità dopo il fine-tuning, evitando il compromesso sulla qualità. L'approccio si basa sul framework basato sul gradiente del campionamento antidistillazione. L'articolo è stato pubblicato su arXiv con identificatore 2602.03812v2.

Fatti principali

ADFP rileva la distillazione di LLM di frontiera
I metodi esistenti degradano la qualità della generazione
ADFP utilizza un modello proxy per campionare token
Massimizza la rilevabilità dopo il fine-tuning
Basato sul framework di campionamento antidistillazione
Pubblicato su arXiv:2602.03812v2
Evita il forte compromesso tra qualità e forza dell'impronta
Allinea l'impronta digitale con le dinamiche di apprendimento dello studente

L'antidistillazione tramite impronte digitali rileva il furto di modelli LLM

Fatti principali

Entità

Istituzioni

Fonti