Sony AI rilascia Woosh, un modello fondamentale per effetti sonori open source

ai-technology · 2026-04-30

Sony AI ha svelato Woosh, un modello fondamentale per effetti sonori, condividendo la sua architettura, metodologia di addestramento e valutazioni comparative con altri modelli aperti. Woosh presenta un codificatore/decodificatore audio di alta qualità, un modello per l'allineamento testo-audio e modelli generativi sia per testo-audio che per video-audio. Inoltre, sono disponibili versioni distillate per un funzionamento efficiente e un'inferenza rapida. Le valutazioni condotte su dataset pubblici e privati indicano che Woosh ha prestazioni competitive, o addirittura superiori, rispetto ad alternative open esistenti come StableAudio-Open e TangoFlux. Il codice di inferenza e i pesi del modello sono accessibili su GitHub. Questa iniziativa mira ad aiutare la comunità di ricerca audio offrendo strumenti essenziali per approcci innovativi e definizione di baseline.

Fatti principali

Sony AI ha rilasciato Woosh, un modello fondamentale per effetti sonori open source.
Il modello include componenti per codificatore/decodificatore audio, allineamento testo-audio, testo-audio e video-audio.
Sono incluse versioni distillate per funzionamento a basse risorse.
Le valutazioni mostrano prestazioni competitive rispetto a StableAudio-Open e TangoFlux.
Il codice di inferenza e i pesi del modello sono pubblicamente disponibili su GitHub.
Il rilascio è rivolto alla comunità di ricerca audio per sviluppare nuovi approcci e baseline.

Sony AI rilascia Woosh, un modello fondamentale per effetti sonori open source

Fatti principali

Entità

Istituzioni

Fonti