L'antidistillazione tramite impronte digitali rileva il furto di modelli LLM
I ricercatori hanno sviluppato l'antidistillazione tramite impronte digitali (ADFP), un nuovo metodo per rilevare quando un modello studente di terze parti è stato addestrato sugli output di un grande modello linguistico di frontiera senza autorizzazione. Le tecniche esistenti di impronte digitali si basano su perturbazioni euristiche che degradano la qualità della generazione per garantire che l'impronta venga interiorizzata dallo studente. ADFP allinea l'obiettivo dell'impronta digitale con le dinamiche di apprendimento dello studente, utilizzando un modello proxy per identificare e campionare token che massimizzano la rilevabilità dopo il fine-tuning, evitando il compromesso sulla qualità. L'approccio si basa sul framework basato sul gradiente del campionamento antidistillazione. L'articolo è stato pubblicato su arXiv con identificatore 2602.03812v2.
Fatti principali
- ADFP rileva la distillazione di LLM di frontiera
- I metodi esistenti degradano la qualità della generazione
- ADFP utilizza un modello proxy per campionare token
- Massimizza la rilevabilità dopo il fine-tuning
- Basato sul framework di campionamento antidistillazione
- Pubblicato su arXiv:2602.03812v2
- Evita il forte compromesso tra qualità e forza dell'impronta
- Allinea l'impronta digitale con le dinamiche di apprendimento dello studente
Entità
Istituzioni
- arXiv