Dinamiche di Glauber sui modelli linguistici mascherati: analisi del tempo di mixing

publication · 2026-05-20

Un recente studio teorico pubblicato su arXiv (2605.16378) esplora le caratteristiche distributive globali dei modelli linguistici mascherati (MLM) durante la generazione iterativa. I ricercatori rappresentano il ricampionamento iterativo dei token mascherati come una catena di Markov di Glauber applicata a sequenze di token. Propongono un test rettangolare per dimostrare l'incompatibilità intrinseca dei condizionali MLM, confermandone l'ampia presenza nei MLM contemporanei. I risultati teorici indicano che, con una limitata influenza incrociata tra token, un risultato di contrazione ad alta temperatura suggerisce un tempo di mixing di O(n log n), dove n rappresenta la lunghezza della sequenza. Al contrario, in una condizione di margine locale uniforme, il comportamento della catena differisce. Questo studio affronta una questione cruciale riguardante l'affidabilità dei MLM come modelli generativi.

Fatti principali

Articolo arXiv 2605.16378
Modella il ricampionamento iterativo di token mascherati come catena di Markov di Glauber
Introduce il test rettangolare per l'incompatibilità dei condizionali MLM
Verifica empiricamente l'incompatibilità nei MLM moderni
La contrazione ad alta temperatura dà un tempo di mixing O(n log n) sotto influenza incrociata limitata
La condizione di margine locale uniforme porta a un diverso comportamento di mixing
Affronta il comportamento distributivo globale dei MLM
La lunghezza della sequenza n è il parametro chiave

Dinamiche di Glauber sui modelli linguistici mascherati: analisi del tempo di mixing

Fatti principali

Entità

Istituzioni

Fonti