Quando un Modello Linguistico si Impegna? Una Teoria a Risposta Finita dell'Impegno Pre-Verbalizzazione

ai-technology · 2026-05-11

Uno studio recente pubblicato su arXiv (2605.06723) presenta una teoria incentrata sulla stabilizzazione delle preferenze a risposta finita per determinare quando la preferenza di un modello linguistico per una risposta si solidifica prima della sua espressione verbale. Questo approccio proietta le probabilità di continuazione su un insieme limitato di risposte, stabilendo metriche per l'inizio della risposta basata su parser, la durata della stabilizzazione retrospettiva e il vantaggio, senza utilizzare rollout greedy o probe appresi. Negli esperimenti con Qwen3-4B-Instruct su compiti controllati di verdetto ritardato, la proiezione contestuale a risposta finita raggiunge la stabilizzazione 17–31 token prima che la risposta diventi analizzabile, dimostrando un vantaggio positivo in una replica pulita con parser. Questo segnale riflette l'impegno mutevole del modello.

Fatti principali

Articolo arXiv:2605.06723
Introduce la stabilizzazione delle preferenze a risposta finita
Proietta le probabilità di continuazione su un insieme finito di risposte
Definisce l'inizio della risposta basata su parser e il tempo di stabilizzazione retrospettiva
Testato su Qwen3-4B-Instruct
Vantaggio medio di 17–31 token nei template principali
Vantaggio positivo nella replica pulita con parser
Non richiede rollout greedy o probe appresi

Quando un Modello Linguistico si Impegna? Una Teoria a Risposta Finita dell'Impegno Pre-Verbalizzazione

Fatti principali

Entità

Istituzioni

Fonti