Valutazione degli LLM su Compiti di Analisi dei Social Media

ai-technology · 2026-05-01

Uno studio recente ha analizzato l'efficacia di vari modelli linguistici di grandi dimensioni (LLM) nell'esecuzione di compiti sui social media su Twitter, ora rinominato X. La valutazione ha incluso modelli come GPT-4, Gemini 1.5 Pro e BERT, tra gli altri. I ricercatori si sono concentrati su tre compiti principali: verifica della paternità dei post, generazione di contenuti realistici e inferenza degli attributi degli utenti. Per garantire l'accuratezza, hanno sviluppato un approccio di campionamento sistematico per analizzare i post degli utenti, utilizzando nuovi tweet raccolti da gennaio 2024. Una valutazione degli utenti ha anche confrontato la qualità della scrittura degli LLM con quella degli utenti reali, valutando sia l'autenticità che il coinvolgimento.

Fatti principali

Prima valutazione completa degli LLM moderni su compiti di analisi dei social media
Modelli valutati: GPT-4, GPT-4o, GPT-3.5-Turbo, Gemini 1.5 Pro, DeepSeek-V3, Llama 3.2, BERT
Tre compiti: verifica della paternità, generazione di post, inferenza degli attributi degli utenti
Nuovi tweet da gennaio 2024 in poi utilizzati per mitigare il bias dei dati già visti
Studio sugli utenti condotto per misurare le percezioni dei post generati dagli LLM

Entità

—

Fonti

arXiv cs.AI — 2026-04-22