ARTFEED — Contemporary Art Intelligence

Prestazioni dei LLM in Calo nella 'Valle del Disagio Testuale' con Frammentazione delle Parole

ai-technology · 2026-05-11

Una recente indagine pubblicata su arXiv (2605.07186) indica che i modelli linguistici di grandi dimensioni (LLM) subiscono un declino non lineare delle prestazioni quando incontrano testo con confini di parola corrotti. I ricercatori hanno scoperto che aggiungendo spazi bianchi all'interno delle parole, l'accuratezza del rilevamento segue una traiettoria a forma di U all'aumentare del tasso di inserimento, un fenomeno chiamato 'Valle del Disagio Testuale'. L'ipotesi di transizione di modalità proposta suggerisce che gli LLM passano dall'elaborazione a livello di parola a livello di carattere, con la valle che illustra un cambiamento caotico in cui nessuna modalità di elaborazione è efficace. Quattro esperimenti e un'analisi corroborano ciò, rivelando che l'apprendimento in contesto non migliora le prestazioni nel punto più basso della valle, mentre la regolarizzazione della perturbazione attenua la forma a U. Tendenze simili sono state notate in un compito di ragionamento matematico.

Fatti principali

  • Lo studio proviene dall'articolo arXiv 2605.07186.
  • La corruzione dei confini di parola comporta l'inserimento di spazi bianchi all'interno delle parole.
  • L'accuratezza del rilevamento degli LLM segue una curva a U all'aumentare del tasso di inserimento.
  • Il fenomeno è chiamato 'Valle del Disagio Testuale'.
  • Un'ipotesi di transizione di modalità spiega il comportamento.
  • L'apprendimento in contesto non recupera le prestazioni al fondo della valle.
  • La regolarizzazione della perturbazione riduce la forma a U.
  • Un compito di ragionamento matematico ha mostrato un degrado simile.

Entità

Istituzioni

  • arXiv

Fonti