Fragilità semantica nei sistemi testo-audio sotto perturbazioni dei prompt

ai-technology · 2026-05-07

Uno studio recente indaga l'efficacia dei modelli di generazione testo-audio quando si trovano ad affrontare prompt che mantengono significati simili ma differiscono linguisticamente. I ricercatori hanno preso di mira tre sistemi distinti: MusicGen-small, MusicGen-large e Stable Audio 2.5. Hanno creato un dataset composto da 75 gruppi di prompt, variando la lingua attraverso sostituzione lessicale minima, cambi di intensità e riformulazione strutturale. L'analisi dell'audio generato ha rivelato notevoli discrepanze nel suono e nell'interpretazione, evidenziando potenziali problemi di affidabilità di questi sistemi in casi d'uso pratici. Questo studio sottolinea la necessità di un ulteriore perfezionamento della tecnologia nella gestione di variazioni linguistiche sfumate.

Fatti principali

Lo studio valuta la fragilità semantica nei sistemi di generazione testo-audio.
Modelli testati: MusicGen-small, MusicGen-large, Stable Audio 2.5.
Tre tipi di perturbazione: sostituzione lessicale minima, cambi di intensità, riformulazione strutturale.
Il dataset include 75 gruppi di prompt con intento semantico preservato.
Output confrontati tramite misure di similarità spettrale, temporale e semantica.
Piccole variazioni linguistiche possono causare notevoli differenze nell'audio generato.
La ricerca evidenzia preoccupazioni sull'affidabilità per l'uso pratico.
Pubblicato su arXiv con identificativo 2603.13824.

Fragilità semantica nei sistemi testo-audio sotto perturbazioni dei prompt

Fatti principali

Entità

Istituzioni

Fonti