CLP-DD: Distillazione del Dataset con Sonda Lineare in Forma Chiusa per Modelli Pre-Addestrati

ai-technology · 2026-05-11

I ricercatori propongono CLP-DD (Closed-Form Linear-Probe Dataset Distillation), un metodo per comprimere grandi set di training in piccoli set sintetici per modelli visivi pre-addestrati congelati. A differenza degli approcci esistenti che si basano sull'iterativo abbinamento di traiettorie o approssimazioni del kernel tangente neurale, CLP-DD sfrutta la soluzione in forma chiusa della sonda lineare sulle caratteristiche pre-addestrate, eliminando l'ottimizzazione del ciclo interno e le approssimazioni a larghezza infinita. Il metodo utilizza una formulazione a due livelli per calcolare la sonda lineare indotta dal set sintetico direttamente dalle caratteristiche pre-addestrate. Questo approccio si rivolge al moderno transfer learning in cui un encoder congelato è seguito da una sonda lineare leggera, offrendo un'alternativa più efficiente e teoricamente fondata. L'articolo è disponibile su arXiv con identificativo 2605.07194.

Fatti principali

CLP-DD è un metodo di distillazione del dataset per modelli visivi pre-addestrati.
Utilizza una soluzione di sonda lineare in forma chiusa, evitando aggiornamenti iterativi.
Il metodo è pensato per encoder congelati con sonda lineare.
Elimina le approssimazioni del kernel tangente neurale e le traiettorie del ciclo interno.
L'approccio si basa su una formulazione di ottimizzazione a due livelli.
L'articolo è pubblicato su arXiv con ID 2605.07194.
Comprime grandi set di training in piccoli set sintetici.
Il metodo è progettato per il transfer learning visivo.

CLP-DD: Distillazione del Dataset con Sonda Lineare in Forma Chiusa per Modelli Pre-Addestrati

Fatti principali

Entità

Istituzioni

Fonti