S2ED: Framework senza addestramento per illustrazioni narrative coerenti
I ricercatori hanno introdotto Story-to-Executable Descriptions (S2ED), un framework agnostico rispetto al modello e che non richiede addestramento, progettato per illustrare storie in più fotogrammi. S2ED trasforma un'intera narrazione in una serie di descrizioni eseguibili chiare e modificabili, mantenendo la coerenza tra i fotogrammi. Questo framework orchestra tre agenti per suddividere la narrazione, stabilire tratti caratteriali canonici e migliorare i segnali spaziali ed emotivi. Consente una propagazione interpretabile dello stato tramite prompt e permette aggiustamenti locali per correggere la deriva senza dover riaddestrare il generatore. I test condotti sui dataset Flintstones e Shakoo Maku dimostrano che S2ED migliora sia la coerenza a livello di sequenza che la fedeltà dei personaggi rispetto a tecniche avanzate di prompting, pianificazione con modelli grandi e un approccio basato su addestramento di riferimento, come evidenziato da metriche automatiche e valutazioni umane. Il paper è disponibile su arXiv.
Fatti principali
- S2ED è un framework senza addestramento e agnostico rispetto al modello.
- Converte le storie in descrizioni eseguibili per un rendering coerente.
- Tre agenti coordinano la segmentazione della narrazione, la definizione degli attributi dei personaggi e l'arricchimento dei segnali.
- Consente modifiche locali per riparare la deriva senza riaddestramento.
- Testato sui dataset Flintstones e Shakoo Maku.
- Supera tecniche di prompting avanzato, pianificazione con modelli grandi e metodi basati su addestramento di riferimento.
- Migliora la coerenza a livello di sequenza e la fedeltà dei personaggi.
- Paper disponibile su arXiv.
Entità
Istituzioni
- arXiv