Prestazioni dei LLM in Calo nella 'Valle del Disagio Testuale' con Frammentazione delle Parole

ai-technology · 2026-05-11

Una recente indagine pubblicata su arXiv (2605.07186) indica che i modelli linguistici di grandi dimensioni (LLM) subiscono un declino non lineare delle prestazioni quando incontrano testo con confini di parola corrotti. I ricercatori hanno scoperto che aggiungendo spazi bianchi all'interno delle parole, l'accuratezza del rilevamento segue una traiettoria a forma di U all'aumentare del tasso di inserimento, un fenomeno chiamato 'Valle del Disagio Testuale'. L'ipotesi di transizione di modalità proposta suggerisce che gli LLM passano dall'elaborazione a livello di parola a livello di carattere, con la valle che illustra un cambiamento caotico in cui nessuna modalità di elaborazione è efficace. Quattro esperimenti e un'analisi corroborano ciò, rivelando che l'apprendimento in contesto non migliora le prestazioni nel punto più basso della valle, mentre la regolarizzazione della perturbazione attenua la forma a U. Tendenze simili sono state notate in un compito di ragionamento matematico.

Fatti principali

Lo studio proviene dall'articolo arXiv 2605.07186.
La corruzione dei confini di parola comporta l'inserimento di spazi bianchi all'interno delle parole.
L'accuratezza del rilevamento degli LLM segue una curva a U all'aumentare del tasso di inserimento.
Il fenomeno è chiamato 'Valle del Disagio Testuale'.
Un'ipotesi di transizione di modalità spiega il comportamento.
L'apprendimento in contesto non recupera le prestazioni al fondo della valle.
La regolarizzazione della perturbazione riduce la forma a U.
Un compito di ragionamento matematico ha mostrato un degrado simile.

Prestazioni dei LLM in Calo nella 'Valle del Disagio Testuale' con Frammentazione delle Parole

Fatti principali

Entità

Istituzioni

Fonti