Le storie dei LLM mostrano bassa diversità, dominate da tropi del 'faro'

ai-technology · 2026-05-27

Una recente indagine pubblicata su arXiv indica che le storie generate da grandi modelli linguistici (LLM) mostrano una diversità notevolmente bassa. Lo studio ha analizzato 20.000 narrazioni prodotte da quattro modelli contemporanei basati su cinque prompt, rivelando che 11 parole specifiche erano presenti nell'88,3% degli output, mostrando poca variazione tra i diversi modelli. Questi termini frequenti includono nomi come Elias, Mara ed Elara, nonché ambientazioni come fari e professioni come orologiaio e bibliotecario. Sebbene queste parole siano rare sia nelle opere pubblicate che nei dataset di pre-addestramento, si trovano frequentemente nei dati di preferenza probabilmente utilizzati dai modelli esistenti. È interessante notare che queste narrazioni 'del faro' sono meno comuni della media delle storie post-addestramento, molte delle quali coinvolgono personaggi protetti da copyright o temi per adulti. I risultati sottolineano l'effetto significativo di dataset limitati abbinati a robusti algoritmi di allineamento sulla diversità del contenuto generato.

Fatti principali

20.000 storie campionate da quattro modelli attuali
11 parole compaiono nell'88,3% delle storie generate
Nomi ricorrenti: Elias, Mara, Elara
Ambientazioni ricorrenti: fari
Professioni ricorrenti: orologiaio, bibliotecario
Token rari nella letteratura pubblicata e nei dati di pre-addestramento
Token presenti nei dati di preferenza utilizzati da tutti i modelli
Storie del faro poco frequenti rispetto alla media delle storie post-addestramento

Le storie dei LLM mostrano bassa diversità, dominate da tropi del 'faro'

Fatti principali

Entità

Istituzioni

Fonti