ARTFEED — Contemporary Art Intelligence

Quando un Modello Linguistico si Impegna? Una Teoria a Risposta Finita dell'Impegno Pre-Verbalizzazione

ai-technology · 2026-05-11

Uno studio recente pubblicato su arXiv (2605.06723) presenta una teoria incentrata sulla stabilizzazione delle preferenze a risposta finita per determinare quando la preferenza di un modello linguistico per una risposta si solidifica prima della sua espressione verbale. Questo approccio proietta le probabilità di continuazione su un insieme limitato di risposte, stabilendo metriche per l'inizio della risposta basata su parser, la durata della stabilizzazione retrospettiva e il vantaggio, senza utilizzare rollout greedy o probe appresi. Negli esperimenti con Qwen3-4B-Instruct su compiti controllati di verdetto ritardato, la proiezione contestuale a risposta finita raggiunge la stabilizzazione 17–31 token prima che la risposta diventi analizzabile, dimostrando un vantaggio positivo in una replica pulita con parser. Questo segnale riflette l'impegno mutevole del modello.

Fatti principali

  • Articolo arXiv:2605.06723
  • Introduce la stabilizzazione delle preferenze a risposta finita
  • Proietta le probabilità di continuazione su un insieme finito di risposte
  • Definisce l'inizio della risposta basata su parser e il tempo di stabilizzazione retrospettiva
  • Testato su Qwen3-4B-Instruct
  • Vantaggio medio di 17–31 token nei template principali
  • Vantaggio positivo nella replica pulita con parser
  • Non richiede rollout greedy o probe appresi

Entità

Istituzioni

  • arXiv

Fonti