Controllo Aspetta-Pensa-Rispondi per Grandi Modelli Audio-Linguistici
I ricercatori hanno creato un nuovo sistema di controllo per i Grandi Modelli Audio-Linguistici (LALM) volto a migliorare il modo in cui ragionano e interagiscono in tempo reale durante conversazioni parlate. Questo sistema aiuta il modello a decidere quando mettere in pausa, quando fornire un rapido aggiornamento del ragionamento e quando rispondere, anche se le informazioni audio non sono complete. Utilizzando Qwen2.5-Omni-7B come modello base, hanno sviluppato sequenze che allineano attesa, pensiero e risposta a partire da dati di ragionamento parlato. Il controllore è stato addestrato tramite supervised fine-tuning (SFT) e ha impiegato Decoupled Clip and Dynamic Sampling Policy Optimization (DAPO). Il loro meccanismo di ricompensa valuta sia la qualità delle risposte che il tempo impiegato per rispondere.
Fatti principali
- La formulazione del controllo è apprendibile e basata su aspetta-pensa-rispondi.
- È progettata per Grandi Modelli Audio-Linguistici (LALM).
- Il modello base utilizzato è Qwen2.5-Omni-7B.
- L'addestramento ha coinvolto supervised fine-tuning (SFT) e DAPO.
- Il controllore decide quando aspettare, ragionare o rispondere.
- La ricompensa combina qualità della risposta e ritardo di risposta.
- L'approccio è motivato dalla conversazione umana incrementale.
- Il lavoro è pubblicato su arXiv con ID 2605.27190.
Entità
Istituzioni
- arXiv