Studio Analizza il Collasso nei Metodi di Riduzione dei Token Senza Addestramento per Vision Transformer

ai-technology · 2026-04-22

Un nuovo studio pubblicato su arXiv (ID: 2604.16745v1) indaga il motivo per cui i metodi di riduzione dei token senza addestramento per Vision Transformer subiscono un improvviso collasso delle prestazioni ad alti tassi di compressione. La ricerca esamina metodi tra cui ToMe, ToFu, PiToMe e MCTF, che mostrano tutti schemi di fallimento simili a forma di scogliera nonostante impieghino meccanismi di punteggio diversi. I ricercatori hanno sviluppato un framework diagnostico con due strumenti analitici: consistenza del ranking (ρ_s) e correlazione fuori diagonale (ρ_off). Questo framework rivela che il collasso deriva da due fattori principali: un amplificatore di errore indipendente dal segnale intrinseco ai processi di riduzione a strati, che predice curve di Pareto convesse e rapporti di riduzione critici proporzionali a 1/L; e la dipendenza condivisa da segnali di similarità a coppie la cui consistenza del ranking si deteriora drasticamente da ρ_s=0,88 a 0,27 negli strati più profondi della rete. Lo studio dimostra che gli approcci di ranking a coppie soffrono di un'instabilità intrinseca dovuta a perturbazioni congiunte O(N_p^2), mentre i segnali unari mantengono una maggiore stabilità attraverso perturbazioni O(N_p) che seguono i principi del Teorema del Limite Centrale. Da questa diagnosi, i ricercatori hanno derivato tre principi progettuali e costruito CATIS come sistema di validazione costruttivo utilizzando segnali unari. La ricerca fornisce approfondimenti fondamentali sui limiti degli attuali approcci di riduzione dei token nelle architetture dei vision transformer.

Fatti principali

Studio pubblicato su arXiv con ID 2604.16745v1
Analizza i metodi di riduzione dei token senza addestramento per Vision Transformer
Esamina i metodi ToMe, ToFu, PiToMe e MCTF
Tutti i metodi mostrano un collasso simile a scogliera ad alta compressione
Sviluppato framework diagnostico con strumenti di consistenza del ranking e correlazione fuori diagonale
Identifica un amplificatore di errore indipendente dal segnale nella riduzione a strati
I segnali di similarità a coppie si degradano da ρ_s=0,88 a 0,27 negli strati profondi
Costruito il sistema CATIS come validazione utilizzando segnali unari

Studio Analizza il Collasso nei Metodi di Riduzione dei Token Senza Addestramento per Vision Transformer

Fatti principali

Entità

Istituzioni

Fonti