Attacchi di distillazione creano un compromesso di implementazione per i modelli di IA

ai-technology · 2026-05-23

Una recente indagine pubblicata su arXiv esamina l'equilibrio tra l'efficacia dei modelli e la loro suscettibilità agli attacchi di distillazione. I ricercatori stabiliscono un framework minimax che coinvolge un modello insegnante vincolato dall'utilità e uno studente adattivo. Introducono strategie di risposta unilaterali: un metodo di valutazione adattiva che consente allo studente di dare priorità agli esempi di alto valore, e una difesa dal lato dell'insegnante volta a minimizzare gli output utili per la distillazione. Utilizzando un proxy a basso costo per il valore dell'esempio, creano Product-of-Experts (PoE), una difesa che opera esclusivamente durante i passaggi in avanti, integrando sia l'insegnante che lo studente proxy nel processo di generazione. I risultati dei test su GSM8K e MATH rivelano un significativo divario passivo-adattivo, indicando che gli studenti adattivi recuperano molta più capacità di quanto le valutazioni passive indichino contro difese avanzate. La disparità di robustezza tra difese costose ed economiche diminuisce con la valutazione adattiva.

Fatti principali

arXiv:2605.22737
Gli attacchi di distillazione creano un compromesso di implementazione per i fornitori di modelli
Gioco minimax tra insegnante vincolato dall'utilità e studente adattivo
Regole di risposta unilaterali: valutazione adattiva e difesa dal lato dell'insegnante
Difesa Product-of-Experts (PoE) combina insegnante con studente proxy
Risultati empirici sui dataset GSM8K e MATH
Ampio divario passivo-adattivo sulle difese allo stato dell'arte
L'apparente divario di robustezza si riduce sotto valutazione adattiva

Attacchi di distillazione creano un compromesso di implementazione per i modelli di IA

Fatti principali

Entità

Istituzioni

Fonti