ARTFEED — Contemporary Art Intelligence

PlanAudio: Sintesi Unificata di Parlato e Suoni Basata su LLM

ai-technology · 2026-05-28

I ricercatori presentano PlanAudio, un framework unificato autoregressivo basato su LLM per generare audio composito con parlato e suoni a partire da prompt testuali in forma libera. Il compito, denominato generazione di audio unificato da prompt testuali in forma libera, supera le limitazioni dei pipeline disgiunti e degli input strutturati. PlanAudio sfrutta il ragionamento intrinseco degli LLM per semplificare l'architettura e utilizza un meccanismo di catena di pensiero latente semantico per una pianificazione implicita. L'approccio mira a catturare interazioni dettagliate tra parlato e suoni, consentendo compositi naturali a partire da linguaggio naturale non vincolato. L'articolo è disponibile su arXiv con ID 2605.28063.

Fatti principali

  • PlanAudio è un framework basato su LLM per la generazione audio unificata.
  • Sintetizza compositi di parlato e suoni da prompt testuali in forma libera.
  • Il compito è chiamato generazione di audio unificato da prompt testuali in forma libera.
  • PlanAudio utilizza il ragionamento intrinseco degli LLM invece dei tradizionali codificatori di testo.
  • Introduce un meccanismo di catena di pensiero latente semantico.
  • L'approccio semplifica l'architettura del modello e cattura interazioni dettagliate.
  • L'articolo è disponibile su arXiv (ID 2605.28063).
  • I metodi attuali si basano su pipeline disgiunti o input strutturati.

Entità

Istituzioni

  • arXiv

Fonti