ARTFEED — Contemporary Art Intelligence

I LLM Mostrano un Pregiudizio di Genere nella Valutazione della Credibilità delle Notizie

ai-technology · 2026-05-06

Un nuovo studio su arXiv rivela che i grandi modelli linguistici (LLM) presentano un'asimmetria specifica per genere nel valutare la credibilità delle notizie, essendo più propensi a classificare erroneamente notizie di intrattenimento legittime come false rispetto a notizie hard. La ricerca, utilizzando il dataset GossipCop di FakeNewsNet, ha testato quattro modelli all'avanguardia in un contesto zero-shot. DeepSeek-V3.2 e GPT-5.2 hanno mostrato gap nel tasso di falsi positivi rispettivamente di 10,1 e 8,8 punti percentuali (entrambi p < .001), mentre Claude Opus 4.6 e Gemini 3 Flash non hanno mostrato differenze significative. Un esperimento di scambio di stili ha indicato che il pregiudizio non è dovuto esclusivamente al registro stilistico. La mitigazione basata su prompt, come inquadrare il modello come fact-checker di notizie di intrattenimento, ha ridotto i falsi positivi per DeepSeek-V3.2 ma non è stata universalmente efficace.

Fatti principali

  • Lo studio esamina il pregiudizio degli LLM nella credibilità delle notizie tra generi diversi
  • Utilizza il dataset GossipCop di FakeNewsNet
  • DeepSeek-V3.2 mostra un gap del 10,1% nel tasso di falsi positivi
  • GPT-5.2 mostra un gap dell'8,8%
  • Claude Opus 4.6 e Gemini 3 Flash non mostrano asimmetria significativa
  • L'esperimento di scambio di stili produce cambiamenti limitati
  • La mitigazione basata su prompt riduce i falsi positivi per DeepSeek-V3.2
  • Pubblicato su arXiv con ID 2605.01727

Entità

Istituzioni

  • arXiv
  • FakeNewsNet
  • GossipCop

Fonti