ARTFEED — Contemporary Art Intelligence

Le storie dei LLM mostrano bassa diversità, dominate da tropi del 'faro'

ai-technology · 2026-05-27

Una recente indagine pubblicata su arXiv indica che le storie generate da grandi modelli linguistici (LLM) mostrano una diversità notevolmente bassa. Lo studio ha analizzato 20.000 narrazioni prodotte da quattro modelli contemporanei basati su cinque prompt, rivelando che 11 parole specifiche erano presenti nell'88,3% degli output, mostrando poca variazione tra i diversi modelli. Questi termini frequenti includono nomi come Elias, Mara ed Elara, nonché ambientazioni come fari e professioni come orologiaio e bibliotecario. Sebbene queste parole siano rare sia nelle opere pubblicate che nei dataset di pre-addestramento, si trovano frequentemente nei dati di preferenza probabilmente utilizzati dai modelli esistenti. È interessante notare che queste narrazioni 'del faro' sono meno comuni della media delle storie post-addestramento, molte delle quali coinvolgono personaggi protetti da copyright o temi per adulti. I risultati sottolineano l'effetto significativo di dataset limitati abbinati a robusti algoritmi di allineamento sulla diversità del contenuto generato.

Fatti principali

  • 20.000 storie campionate da quattro modelli attuali
  • 11 parole compaiono nell'88,3% delle storie generate
  • Nomi ricorrenti: Elias, Mara, Elara
  • Ambientazioni ricorrenti: fari
  • Professioni ricorrenti: orologiaio, bibliotecario
  • Token rari nella letteratura pubblicata e nei dati di pre-addestramento
  • Token presenti nei dati di preferenza utilizzati da tutti i modelli
  • Storie del faro poco frequenti rispetto alla media delle storie post-addestramento

Entità

Istituzioni

  • arXiv

Fonti