ARTFEED — Contemporary Art Intelligence

I modelli linguistici di IA faticano con i testi informali: fallimenti nella tokenizzazione e spostamenti distributivi

ai-technology · 2026-04-22

Un'indagine di ricerca esamina l'impatto del linguaggio informale sull'accuratezza dell'inferenza del linguaggio naturale (NLI) in due modelli transformer: RoBERTa-large (355 milioni di parametri) e ELECTRA-small (14 milioni di parametri). I ricercatori hanno modificato i dataset SNLI e MultiNLI incorporando sostituzioni di slang, sostituzioni di emoji, token di riempimento Gen-Z e varie combinazioni. Mentre le sostituzioni di slang hanno comportato un leggero calo di accuratezza (massimo 1,1 punti percentuali) a causa della copertura WordPiece, le sostituzioni di emoji hanno presentato sfide significative; il tokenizer di ELECTRA ha convertito molte parole di contenuto alterate in token [UNK], verificandosi nel 93,6% dei casi con una media di 2,91 per istanza. Le interpretazioni errate sono derivate da token di rumore come 'no cap', che erano nel vocabolario ma non inclusi nei dati di addestramento. Lo studio evidenzia gli errori di tokenizzazione e gli spostamenti distributivi come sfide chiave. Questo lavoro è disponibile su arXiv con l'identificatore 2604.16787v1.

Fatti principali

  • Lo studio esamina l'impatto del linguaggio informale sull'accuratezza NLI nei modelli ELECTRA-small e RoBERTa-large
  • Sono state applicate quattro trasformazioni: sostituzione di slang, sostituzione di emoji, token di riempimento Gen-Z e combinazioni
  • La sostituzione di slang causa un degrado minimo (≤1,1pp) grazie alla copertura WordPiece
  • La sostituzione di emoji causa fallimenti di tokenizzazione con il 93,6% degli esempi contenenti token [UNK]
  • Media di 2,91 token [UNK] per esempio con emoji
  • I token di rumore ('no cap', 'deadass', 'tbh') sono nel vocabolario ma assenti dai dati di addestramento
  • I modelli assegnano peso inferenziale ai token di rumore che in realtà non portano
  • La ricerca identifica fallimenti di tokenizzazione e spostamenti distributivi come modalità di fallimento primarie

Entità

Istituzioni

  • arXiv

Fonti