ARTFEED — Contemporary Art Intelligence

Il Framework Compilatore Forge-UGC Ottimizza il Deployment dei Transformer su Hardware Eterogeneo

ai-technology · 2026-04-22

Forge-UGC ha presentato un framework compilatore a quattro fasi mirato a migliorare il deployment dei modelli transformer su vari acceleratori hardware, testato specificamente su Intel AI Boost NPU. Questo nuovo sistema affronta le carenze dei framework attuali come OpenVINO e ONNX Runtime, che spesso presentano processi di compilazione poco chiari, visibilità limitata a livello di pass e gestione inefficiente dei buffer, con conseguenti costi di compilazione più elevati e ritardi in fase di esecuzione. Il suo design hardware-agnostic suddivide la cattura del grafo, l'ottimizzazione, la riduzione della rappresentazione intermedia e la schedulazione del backend in fasi separate. Nella Fase 1, i grafi computazionali vengono catturati utilizzando torch.export a livello di operatore ATen, supportando funzionalità avanzate dei transformer come gli embedding posizionali rotazionali e l'attenzione a query raggruppate senza decomposizione manuale. La Fase 2 introduce sei passaggi di ottimizzazione essenziali, inclusi l'eliminazione del codice morto e la fusione dell'attenzione. La strategia di compilazione universale del grafo mira a migliorare le prestazioni e minimizzare l'overhead per i modelli di IA contemporanei. Questa ricerca è dettagliata nel preprint arXiv 2604.16498v1, classificato come cross-announcement. Migliorando la trasparenza e il controllo nel processo di compilazione, Forge-UGC aspira ad aumentare l'efficienza per gli sviluppatori di IA che utilizzano architetture transformer su hardware specializzato.

Fatti principali

  • Forge-UGC è un compilatore a quattro fasi per il deployment dei transformer su hardware acceleratore eterogeneo.
  • È stato validato su Intel AI Boost NPU.
  • Affronta le limitazioni dei framework esistenti come OpenVINO e ONNX Runtime.
  • Il compilatore utilizza un design hardware-agnostic che separa la cattura del grafo, l'ottimizzazione, la riduzione dell'IR e la schedulazione del backend.
  • La Fase 1 cattura i grafi con torch.export a livello di operatore ATen.
  • La Fase 1 supporta componenti dei transformer come gli embedding posizionali rotazionali, l'attenzione a query raggruppate e SwiGLU senza decomposizione manuale.
  • La Fase 2 applica sei passaggi di ottimizzazione inclusi l'eliminazione del codice morto e la fusione dell'attenzione.
  • La ricerca è documentata nel preprint arXiv 2604.16498v1.

Entità

Istituzioni

  • Intel

Fonti