Controllo Aspetta-Pensa-Rispondi per Grandi Modelli Audio-Linguistici

ai-technology · 2026-05-27

I ricercatori hanno creato un nuovo sistema di controllo per i Grandi Modelli Audio-Linguistici (LALM) volto a migliorare il modo in cui ragionano e interagiscono in tempo reale durante conversazioni parlate. Questo sistema aiuta il modello a decidere quando mettere in pausa, quando fornire un rapido aggiornamento del ragionamento e quando rispondere, anche se le informazioni audio non sono complete. Utilizzando Qwen2.5-Omni-7B come modello base, hanno sviluppato sequenze che allineano attesa, pensiero e risposta a partire da dati di ragionamento parlato. Il controllore è stato addestrato tramite supervised fine-tuning (SFT) e ha impiegato Decoupled Clip and Dynamic Sampling Policy Optimization (DAPO). Il loro meccanismo di ricompensa valuta sia la qualità delle risposte che il tempo impiegato per rispondere.

Fatti principali

La formulazione del controllo è apprendibile e basata su aspetta-pensa-rispondi.
È progettata per Grandi Modelli Audio-Linguistici (LALM).
Il modello base utilizzato è Qwen2.5-Omni-7B.
L'addestramento ha coinvolto supervised fine-tuning (SFT) e DAPO.
Il controllore decide quando aspettare, ragionare o rispondere.
La ricompensa combina qualità della risposta e ritardo di risposta.
L'approccio è motivato dalla conversazione umana incrementale.
Il lavoro è pubblicato su arXiv con ID 2605.27190.

Controllo Aspetta-Pensa-Rispondi per Grandi Modelli Audio-Linguistici

Fatti principali

Entità

Istituzioni

Fonti