LayerCache Framework Ottimizza l'Inferenza del Flow Matching Tramite Caching Stratificato

ai-technology · 2026-04-22

LayerCache, un innovativo framework di caching, affronta le elevate esigenze computazionali associate ai modelli Flow Matching utilizzati nella generazione di immagini. Sebbene questi modelli producano immagini di qualità eccellente, richiedono un processo iterativo di denoising attraverso estese reti Transformer, che risulta costoso. Lo studio, disponibile nella preprint arXiv 2604.16492v1, rivela che diversi gruppi di layer all'interno di un Transformer mostrano dinamiche di velocità eterogenee. Gli strati superficiali sono sufficientemente stabili per consentire un caching aggressivo, mentre gli strati profondi subiscono significativi cambiamenti di velocità che richiedono il calcolo completo. Le attuali tecniche di caching considerano il Transformer come un'entità singola, prendendo decisioni di caching uniformi per ogni step temporale e trascurando le differenze specifiche dei layer. LayerCache suddivide il Transformer in gruppi, consentendo decisioni di caching indipendenti per ciascun gruppo in ogni fase di denoising. Include inoltre un metodo adattivo di selezione dello span JVP K che sfrutta metriche di stabilità per ottimizzare sia l'accuratezza che l'efficienza computazionale, con l'obiettivo di ridurre i costi di inferenza senza compromettere la qualità delle immagini.

Fatti principali

I modelli Flow Matching raggiungono una qualità di generazione di immagini allo stato dell'arte.
Questi modelli comportano costi di inferenza sostanziali a causa del denoising iterativo attraverso grandi reti Transformer.
Diversi gruppi di layer Transformer mostrano dinamiche di velocità marcatamente eterogenee.
Gli strati superficiali sono altamente stabili e adatti a un caching aggressivo.
Gli strati profondi subiscono grandi cambiamenti di velocità che richiedono il calcolo completo.
I metodi di caching esistenti trattano l'intero Transformer come un'unità monolitica con una singola decisione di caching per step temporale.
LayerCache è un framework di caching consapevole dei layer che partiziona il Transformer in gruppi di layer.
LayerCache prende decisioni di caching indipendenti per ciascun gruppo in ogni fase di denoising.
LayerCache introduce un meccanismo adattivo di selezione dello span JVP K che sfrutta misurazioni di stabilità per gruppo.
La ricerca è documentata nella preprint arXiv 2604.16492v1 come annuncio incrociato.

LayerCache Framework Ottimizza l'Inferenza del Flow Matching Tramite Caching Stratificato

Fatti principali

Entità

Istituzioni

Fonti