Attacchi di distillazione creano un compromesso di implementazione per i modelli di IA
Una recente indagine pubblicata su arXiv esamina l'equilibrio tra l'efficacia dei modelli e la loro suscettibilità agli attacchi di distillazione. I ricercatori stabiliscono un framework minimax che coinvolge un modello insegnante vincolato dall'utilità e uno studente adattivo. Introducono strategie di risposta unilaterali: un metodo di valutazione adattiva che consente allo studente di dare priorità agli esempi di alto valore, e una difesa dal lato dell'insegnante volta a minimizzare gli output utili per la distillazione. Utilizzando un proxy a basso costo per il valore dell'esempio, creano Product-of-Experts (PoE), una difesa che opera esclusivamente durante i passaggi in avanti, integrando sia l'insegnante che lo studente proxy nel processo di generazione. I risultati dei test su GSM8K e MATH rivelano un significativo divario passivo-adattivo, indicando che gli studenti adattivi recuperano molta più capacità di quanto le valutazioni passive indichino contro difese avanzate. La disparità di robustezza tra difese costose ed economiche diminuisce con la valutazione adattiva.
Fatti principali
- arXiv:2605.22737
- Gli attacchi di distillazione creano un compromesso di implementazione per i fornitori di modelli
- Gioco minimax tra insegnante vincolato dall'utilità e studente adattivo
- Regole di risposta unilaterali: valutazione adattiva e difesa dal lato dell'insegnante
- Difesa Product-of-Experts (PoE) combina insegnante con studente proxy
- Risultati empirici sui dataset GSM8K e MATH
- Ampio divario passivo-adattivo sulle difese allo stato dell'arte
- L'apparente divario di robustezza si riduce sotto valutazione adattiva
Entità
Istituzioni
- arXiv