BlazeEdit: Modello di editing immagini da 195 milioni di parametri per dispositivi mobili
I ricercatori hanno presentato BlazeEdit, un modello compatto di diffusione da immagine a immagine con soli 195 milioni di parametri, progettato per l'implementazione su dispositivi mobili. A differenza dei modelli testo-immagine più grandi che richiedono inferenza lato server, BlazeEdit elimina i componenti di condizionamento testuale e utilizza un'architettura multi-task per eseguire rimozione di oggetti, outpainting, correzione del tono, riilluminazione e generazione di adesivi. Il modello affronta i rischi per la privacy e i costi computazionali associati all'elaborazione lato server. L'articolo è disponibile su arXiv con ID 2605.28067.
Fatti principali
- BlazeEdit è un modello di diffusione da immagine a immagine con 195 milioni di parametri.
- È progettato per l'implementazione su dispositivi mobili.
- Il modello elimina i componenti di condizionamento testuale.
- Consolida rimozione di oggetti, outpainting, correzione del tono, riilluminazione e generazione di adesivi.
- L'articolo è pubblicato su arXiv con ID 2605.28067.
- Il modello affronta i rischi per la privacy e i costi computazionali dell'inferenza lato server.
- I modelli testo-immagine esistenti per dispositivi mobili vanno da 0,5B a 1B parametri.
- BlazeEdit è descritto come un modello di editing immagini generalista.
Entità
Istituzioni
- arXiv