ARTFEED — Contemporary Art Intelligence

Il Benchmark MultiSoc-4D Rivela il Collasso delle Etichette nell'Annotazione Bengali con LLM

other · 2026-05-13

Un nuovo dataset di benchmark, MultiSoc-4D, mette in luce un difetto sistematico nel modo in cui i grandi modelli linguistici gestiscono i compiti di annotazione a classi chiuse per lingue a basse risorse. Il dataset comprende oltre 58.000 commenti sui social media in bengalese provenienti da sei fonti, annotati su quattro dimensioni: categoria, sentiment, discorso d'odio e sarcasmo. I ricercatori hanno utilizzato ChatGPT, Gemini, Claude e Grok per annotare partizioni separate, con un set di validazione comune del 20%. Hanno scoperto un 'collasso delle etichette indotto dalle istruzioni', in cui i LLM selezionano in modo sproporzionato etichette di fallback come Altro, Neutro o No, portando a un elevato accordo tra modelli ma a una grave sottorilevazione delle categorie minoritarie. Ad esempio, i modelli non sono riusciti a rilevare rispettivamente il 79% e il 75% delle istanze di discorso d'odio e sarcasmo. Questo fenomeno mina l'affidabilità dell'annotazione automatica per le lingue a basse risorse e sottolinea la necessità di una migliore progettazione delle istruzioni. Lo studio è pubblicato su arXiv con identificativo 2605.06940.

Fatti principali

  • MultiSoc-4D è un benchmark per social media in bengalese con oltre 58.000 commenti.
  • I commenti provengono da sei fonti e sono annotati per categoria, sentiment, discorso d'odio e sarcasmo.
  • LLM utilizzati: ChatGPT, Gemini, Claude e Grok.
  • Il 20% dei dati è servito come set di validazione comune.
  • Il collasso delle etichette indotto dalle istruzioni causa una preferenza per etichette di fallback (Altro, Neutro, No).
  • I LLM non hanno rilevato il 79% delle istanze di discorso d'odio e il 75% delle istanze di sarcasmo.
  • Lo studio è pubblicato su arXiv (2605.06940).
  • Il fenomeno riduce l'affidabilità dell'annotazione per le lingue a basse risorse.

Entità

Istituzioni

  • arXiv

Fonti