ARTFEED — Contemporary Art Intelligence

Controllo Aspetta-Pensa-Rispondi per Grandi Modelli Audio-Linguistici

ai-technology · 2026-05-27

I ricercatori hanno creato un nuovo sistema di controllo per i Grandi Modelli Audio-Linguistici (LALM) volto a migliorare il modo in cui ragionano e interagiscono in tempo reale durante conversazioni parlate. Questo sistema aiuta il modello a decidere quando mettere in pausa, quando fornire un rapido aggiornamento del ragionamento e quando rispondere, anche se le informazioni audio non sono complete. Utilizzando Qwen2.5-Omni-7B come modello base, hanno sviluppato sequenze che allineano attesa, pensiero e risposta a partire da dati di ragionamento parlato. Il controllore è stato addestrato tramite supervised fine-tuning (SFT) e ha impiegato Decoupled Clip and Dynamic Sampling Policy Optimization (DAPO). Il loro meccanismo di ricompensa valuta sia la qualità delle risposte che il tempo impiegato per rispondere.

Fatti principali

  • La formulazione del controllo è apprendibile e basata su aspetta-pensa-rispondi.
  • È progettata per Grandi Modelli Audio-Linguistici (LALM).
  • Il modello base utilizzato è Qwen2.5-Omni-7B.
  • L'addestramento ha coinvolto supervised fine-tuning (SFT) e DAPO.
  • Il controllore decide quando aspettare, ragionare o rispondere.
  • La ricompensa combina qualità della risposta e ritardo di risposta.
  • L'approccio è motivato dalla conversazione umana incrementale.
  • Il lavoro è pubblicato su arXiv con ID 2605.27190.

Entità

Istituzioni

  • arXiv

Fonti