Logit Shift come Proxy per la Selezione di Modelli in Continual Learning

other · 2026-05-28

Un nuovo quadro teorico propone l'uso del logit shift come selettore leggero per catturare le tendenze nella selezione di modelli di Continual Learning (CL). L'approccio scompone il logit shift in dipendenza dall'architettura e dipendenza dai dati, affrontando il costo computazionale dell'ottenimento del logit shift in reti neurali profonde pre-addestrate. Le analisi esistenti assumono larghezze uniformi degli strati nascosti, ignorando l'eterogeneità strutturale delle architetture reali. Lo studio stabilisce una relazione teorica tra architettura eterogenea e logit shift su compiti precedenti, consentendo una selezione efficiente del modello senza il calcolo completo del logit shift.

Fatti principali

Il Continual Learning (CL) è un paradigma pratico per reti neurali profonde pre-addestrate.
Il logit shift funge da proxy naturale per la selezione del modello in scenari CL.
Ottenere il logit shift richiede un costo computazionale enorme.
Le analisi teoriche esistenti assumono larghezze uniformi degli strati nascosti.
Le architetture reali hanno larghezza e profondità variabili (eterogeneità strutturale).
Lo studio scompone il logit shift in dipendenza dall'architettura e dipendenza dai dati.
Il quadro mira a stabilire una relazione teorica tra architettura e logit shift.
L'approccio è descritto come un selettore leggero per catturare le tendenze del logit shift.

Entità

—

Fonti

arXiv cs.AI — 2026-05-28