PlanAudio: Sintesi Unificata di Parlato e Suoni Basata su LLM
I ricercatori presentano PlanAudio, un framework unificato autoregressivo basato su LLM per generare audio composito con parlato e suoni a partire da prompt testuali in forma libera. Il compito, denominato generazione di audio unificato da prompt testuali in forma libera, supera le limitazioni dei pipeline disgiunti e degli input strutturati. PlanAudio sfrutta il ragionamento intrinseco degli LLM per semplificare l'architettura e utilizza un meccanismo di catena di pensiero latente semantico per una pianificazione implicita. L'approccio mira a catturare interazioni dettagliate tra parlato e suoni, consentendo compositi naturali a partire da linguaggio naturale non vincolato. L'articolo è disponibile su arXiv con ID 2605.28063.
Fatti principali
- PlanAudio è un framework basato su LLM per la generazione audio unificata.
- Sintetizza compositi di parlato e suoni da prompt testuali in forma libera.
- Il compito è chiamato generazione di audio unificato da prompt testuali in forma libera.
- PlanAudio utilizza il ragionamento intrinseco degli LLM invece dei tradizionali codificatori di testo.
- Introduce un meccanismo di catena di pensiero latente semantico.
- L'approccio semplifica l'architettura del modello e cattura interazioni dettagliate.
- L'articolo è disponibile su arXiv (ID 2605.28063).
- I metodi attuali si basano su pipeline disgiunti o input strutturati.
Entità
Istituzioni
- arXiv