PlanAudio: Sintesi Unificata di Parlato e Suoni Basata su LLM

ai-technology · 2026-05-28

I ricercatori presentano PlanAudio, un framework unificato autoregressivo basato su LLM per generare audio composito con parlato e suoni a partire da prompt testuali in forma libera. Il compito, denominato generazione di audio unificato da prompt testuali in forma libera, supera le limitazioni dei pipeline disgiunti e degli input strutturati. PlanAudio sfrutta il ragionamento intrinseco degli LLM per semplificare l'architettura e utilizza un meccanismo di catena di pensiero latente semantico per una pianificazione implicita. L'approccio mira a catturare interazioni dettagliate tra parlato e suoni, consentendo compositi naturali a partire da linguaggio naturale non vincolato. L'articolo è disponibile su arXiv con ID 2605.28063.

Fatti principali

PlanAudio è un framework basato su LLM per la generazione audio unificata.
Sintetizza compositi di parlato e suoni da prompt testuali in forma libera.
Il compito è chiamato generazione di audio unificato da prompt testuali in forma libera.
PlanAudio utilizza il ragionamento intrinseco degli LLM invece dei tradizionali codificatori di testo.
Introduce un meccanismo di catena di pensiero latente semantico.
L'approccio semplifica l'architettura del modello e cattura interazioni dettagliate.
L'articolo è disponibile su arXiv (ID 2605.28063).
I metodi attuali si basano su pipeline disgiunti o input strutturati.

PlanAudio: Sintesi Unificata di Parlato e Suoni Basata su LLM

Fatti principali

Entità

Istituzioni

Fonti