ARTFEED — Contemporary Art Intelligence

SeDT: Migliorare l'affidabilità multi-turno dei LLM tramite condizionamento con apprendimento per rinforzo

ai-technology · 2026-05-27

Uno studio recente indica che i modelli linguistici di grandi dimensioni (LLM) possono subire un calo delle prestazioni fino al 39% quando i compiti vengono rivelati gradualmente in più interazioni, una situazione definita 'Lost in Conversation'. Questo calo è principalmente attribuito a problemi di affidabilità: mentre la capacità ottimale diminuisce solo del 16%, l'inaffidabilità aumenta vertiginosamente di oltre il 112%. I ricercatori suggeriscono che il problema di fondo è strutturale, poiché una cronologia di conversazione piatta tratta ogni turno precedente con uguale importanza, ostacolando la capacità del modello di identificare vincoli essenziali rispetto al dialogo banale. Per rimediare, introducono SeDT (Sentence-transformer Decision-Transformer), un metodo che non richiede addestramento e utilizza il condizionamento return-to-go dell'apprendimento per rinforzo offline. SeDT assegna un punteggio di rilevanza cumulativo a ogni segmento di conversazione basandosi su tre elementi: un sentence transformer per la rilevanza semantica, un decision transformer per le scelte sequenziali e un meccanismo return-to-go per enfatizzare i turni preziosi. Questo approccio può essere implementato su qualsiasi LLM esistente senza ulteriore addestramento. La ricerca è accessibile su arXiv con ID 2605.26788.

Fatti principali

  • I LLM perdono fino al 39% delle prestazioni in compiti multi-turno.
  • La capacità ottimale diminuisce solo del 16%.
  • L'inaffidabilità più che raddoppia (+112%).
  • La causa principale è una cronologia di conversazione piatta con pesatura uguale dei turni.
  • SeDT utilizza il condizionamento return-to-go dell'apprendimento per rinforzo offline.
  • SeDT non richiede addestramento e funziona solo in fase di inferenza.
  • Il metodo annota i frammenti di conversazione con punteggi di rilevanza cumulativi.
  • Articolo disponibile su arXiv: 2605.26788.

Entità

Istituzioni

  • arXiv

Fonti