NDBench: Misurare come i LLM all'avanguardia si adattano al contesto della neurodivergenza
I ricercatori hanno introdotto NDBench, un benchmark composto da 576 output volto a valutare come i modelli linguistici di grandi dimensioni (LLM) basati su chat modificano le loro risposte in relazione ai contesti di neurodivergenza (ND) nei prompt di sistema. Questo benchmark utilizza due modelli avanzati, tre tipi di prompt di sistema (baseline, affermazione del profilo ND e affermazione del profilo ND con istruzioni esplicite), quattro profili ND consolidati e 24 prompt suddivisi in quattro gruppi, inclusa una strategia di mascheramento avversario. I risultati indicano adattamenti notevoli nei contesti ND, con scenari completamente istruiti che producono output più lunghi e organizzati (aumento del numero di token, più intestazioni, passaggi dettagliati; p<10^-8, corretto con Holm). Gli adattamenti sono principalmente strutturali, mostrando cambiamenti minimi nella densità delle liste ma un aumento significativo degli elementi strutturali. Questa ricerca enfatizza le differenze tra modifiche superficiali e strutturali nelle risposte degli LLM ai contesti neurodivergenti.
Fatti principali
- NDBench è un benchmark di 576 output per l'adattamento degli LLM al contesto della neurodivergenza
- Due modelli all'avanguardia testati
- Tre tipi di prompt di sistema: baseline, affermazione del profilo ND e con istruzioni esplicite
- Quattro profili ND canonici utilizzati
- 24 prompt in quattro categorie, incluso mascheramento avversario
- Adattamento significativo nel contesto ND (p<10^-8, corretto con Holm)
- Condizioni completamente istruite producono output più lunghi e strutturati
- L'adattamento è in gran parte strutturale, non modifica la densità delle liste
Entità
Istituzioni
- arXiv