Ombre Digitali Cognitive: Un Corpus di 190.000 Record Traccia il Dibattito degli LLM su Argomenti Controversi
Un nuovo corpus sintetico, Cognitive Digital Shadows (CDS), consente di analizzare come i modelli linguistici di grandi dimensioni discutono questioni sociali divisive quando vengono istruiti a imitare personalità umane o ruoli di IA. Il set di dati comprende 190.000 record generati da 19 LLM, coprendo vaccini, disinformazione sui social media, divari di genere nella scienza e stereotipi STEM. Ogni record condizionato da una personalità include 17 attributi sociodemografici e psicologici, collegando prompt, linguaggio, posizioni e ragionamenti. I testi sono validati per l'ancoraggio tematico e supportano l'analisi emotiva tramite tecniche NLP interpretabili come le reti textual forma mentis. Una piattaforma di pooling con dashboard intuitive facilita l'esplorazione. La ricerca, dettagliata in arXiv:2604.27624, affronta la scarsa disponibilità di dataset che controllano la variazione dell'output degli LLM in base a prompt sociali e contestuali.
Fatti principali
- Cognitive Digital Shadows (CDS) contiene 190.000 record.
- Record generati da 19 diversi LLM.
- Gli LLM sono istruiti a imitare personalità umane o ruoli di assistente IA.
- Copre 4 argomenti controversi: vaccini/sanità, disinformazione sui social media, divario di genere nella scienza, stereotipi STEM.
- I record condizionati da personalità codificano 17 attributi sociodemografici e psicologici.
- I testi sono validati per l'ancoraggio tematico.
- Supporta l'analisi emotiva tramite NLP interpretabile (es. reti textual forma mentis).
- Include una piattaforma di pooling con dashboard intuitive.
Entità
—