ARTFEED — Contemporary Art Intelligence

Sony AI rilascia Woosh, un modello fondamentale per effetti sonori open source

ai-technology · 2026-04-30

Sony AI ha svelato Woosh, un modello fondamentale per effetti sonori, condividendo la sua architettura, metodologia di addestramento e valutazioni comparative con altri modelli aperti. Woosh presenta un codificatore/decodificatore audio di alta qualità, un modello per l'allineamento testo-audio e modelli generativi sia per testo-audio che per video-audio. Inoltre, sono disponibili versioni distillate per un funzionamento efficiente e un'inferenza rapida. Le valutazioni condotte su dataset pubblici e privati indicano che Woosh ha prestazioni competitive, o addirittura superiori, rispetto ad alternative open esistenti come StableAudio-Open e TangoFlux. Il codice di inferenza e i pesi del modello sono accessibili su GitHub. Questa iniziativa mira ad aiutare la comunità di ricerca audio offrendo strumenti essenziali per approcci innovativi e definizione di baseline.

Fatti principali

  • Sony AI ha rilasciato Woosh, un modello fondamentale per effetti sonori open source.
  • Il modello include componenti per codificatore/decodificatore audio, allineamento testo-audio, testo-audio e video-audio.
  • Sono incluse versioni distillate per funzionamento a basse risorse.
  • Le valutazioni mostrano prestazioni competitive rispetto a StableAudio-Open e TangoFlux.
  • Il codice di inferenza e i pesi del modello sono pubblicamente disponibili su GitHub.
  • Il rilascio è rivolto alla comunità di ricerca audio per sviluppare nuovi approcci e baseline.

Entità

Istituzioni

  • Sony AI

Fonti