Sony AI rilascia Woosh, un modello fondamentale per effetti sonori open source
Sony AI ha svelato Woosh, un modello fondamentale per effetti sonori, condividendo la sua architettura, metodologia di addestramento e valutazioni comparative con altri modelli aperti. Woosh presenta un codificatore/decodificatore audio di alta qualità, un modello per l'allineamento testo-audio e modelli generativi sia per testo-audio che per video-audio. Inoltre, sono disponibili versioni distillate per un funzionamento efficiente e un'inferenza rapida. Le valutazioni condotte su dataset pubblici e privati indicano che Woosh ha prestazioni competitive, o addirittura superiori, rispetto ad alternative open esistenti come StableAudio-Open e TangoFlux. Il codice di inferenza e i pesi del modello sono accessibili su GitHub. Questa iniziativa mira ad aiutare la comunità di ricerca audio offrendo strumenti essenziali per approcci innovativi e definizione di baseline.
Fatti principali
- Sony AI ha rilasciato Woosh, un modello fondamentale per effetti sonori open source.
- Il modello include componenti per codificatore/decodificatore audio, allineamento testo-audio, testo-audio e video-audio.
- Sono incluse versioni distillate per funzionamento a basse risorse.
- Le valutazioni mostrano prestazioni competitive rispetto a StableAudio-Open e TangoFlux.
- Il codice di inferenza e i pesi del modello sono pubblicamente disponibili su GitHub.
- Il rilascio è rivolto alla comunità di ricerca audio per sviluppare nuovi approcci e baseline.
Entità
Istituzioni
- Sony AI