Inferenza del Modello di Diffusione in Tempo Reale Ottimizzata su Apple M3 Ultra

ai-technology · 2026-05-20

Un team di ricercatori ha compiuto progressi nella trasformazione di immagini in tempo reale utilizzando una fotocamera alimentata dal chip Apple M3 Ultra, che vanta una GPU a 60 core e 512 GB di memoria unificata. Hanno perfezionato l'inferenza del modello di diffusione attraverso un processo completo in 10 fasi. La loro esplorazione ha incluso tecniche come la conversione CoreML, la quantizzazione, il Token Merging e l'utilizzo del Neural Engine, tra le altre. Hanno anche esaminato modelli compatti, interpolazione dei fotogrammi, sintesi con ricerca kNN, pix2pix-turbo, salto di fotogrammi con flusso ottico e distillazione della conoscenza. Alla fine, hanno combinato la conversione CoreML con un modello incentrato sulla distillazione chiamato SDXS-512 e una configurazione della fotocamera a 3 thread, raggiungendo 22,7 FPS a risoluzione 512x512. Questo lavoro evidenzia l'ottimizzazione per piattaforme non CUDA come Apple Silicon.

Fatti principali

Piattaforma target: Apple M3 Ultra (GPU a 60 core, 512 GB di memoria unificata)
Obiettivo: trasformazione img2img in tempo reale tramite fotocamera
10 fasi di ottimizzazione esplorate
Tecniche incluse: conversione CoreML, quantizzazione, Token Merging, Neural Engine, modelli compatti, interpolazione dei fotogrammi, ricerca kNN, pix2pix-turbo, salto di fotogrammi con flusso ottico, distillazione della conoscenza
Modello finale: SDXS-512 con conversione CoreML e pipeline fotocamera a 3 thread
Raggiunti 22,7 FPS a risoluzione 512x512
Ricerca pubblicata su arXiv (2605.16259)
Affronta la lacuna nell'ottimizzazione per piattaforme non CUDA

Inferenza del Modello di Diffusione in Tempo Reale Ottimizzata su Apple M3 Ultra

Fatti principali

Entità

Istituzioni

Fonti