NDBench: Misurare come i LLM all'avanguardia si adattano al contesto della neurodivergenza

ai-technology · 2026-05-04

I ricercatori hanno introdotto NDBench, un benchmark composto da 576 output volto a valutare come i modelli linguistici di grandi dimensioni (LLM) basati su chat modificano le loro risposte in relazione ai contesti di neurodivergenza (ND) nei prompt di sistema. Questo benchmark utilizza due modelli avanzati, tre tipi di prompt di sistema (baseline, affermazione del profilo ND e affermazione del profilo ND con istruzioni esplicite), quattro profili ND consolidati e 24 prompt suddivisi in quattro gruppi, inclusa una strategia di mascheramento avversario. I risultati indicano adattamenti notevoli nei contesti ND, con scenari completamente istruiti che producono output più lunghi e organizzati (aumento del numero di token, più intestazioni, passaggi dettagliati; p<10^-8, corretto con Holm). Gli adattamenti sono principalmente strutturali, mostrando cambiamenti minimi nella densità delle liste ma un aumento significativo degli elementi strutturali. Questa ricerca enfatizza le differenze tra modifiche superficiali e strutturali nelle risposte degli LLM ai contesti neurodivergenti.

Fatti principali

NDBench è un benchmark di 576 output per l'adattamento degli LLM al contesto della neurodivergenza
Due modelli all'avanguardia testati
Tre tipi di prompt di sistema: baseline, affermazione del profilo ND e con istruzioni esplicite
Quattro profili ND canonici utilizzati
24 prompt in quattro categorie, incluso mascheramento avversario
Adattamento significativo nel contesto ND (p<10^-8, corretto con Holm)
Condizioni completamente istruite producono output più lunghi e strutturati
L'adattamento è in gran parte strutturale, non modifica la densità delle liste

NDBench: Misurare come i LLM all'avanguardia si adattano al contesto della neurodivergenza

Fatti principali

Entità

Istituzioni

Fonti