ARTFEED — Contemporary Art Intelligence

L'allineamento cervello-LLM dipende dalla lingua di addestramento, non dalla tipologia

ai-technology · 2026-05-25

Una recente indagine pubblicata su arXiv (2605.23032) esplora fino a che punto la correlazione tra attività cerebrale e modelli linguistici di grandi dimensioni (LLM) sia coerente tra diverse lingue. Lo studio ha utilizzato dati fMRI di 112 individui fluenti in inglese, cinese e francese (derivati dal corpus Le Petit Prince) per esaminare sette LLM, che includevano varianti dominanti in inglese, dominanti in cinese e multilingue. Una scoperta significativa indica che la dominanza della lingua di addestramento influenza l'allineamento, piuttosto che essere una caratteristica intrinseca dell'inglese. Il modello focalizzato sul cinese Baichuan2-7B, architettonicamente simile a LLaMA-2-7B, ha mostrato il più forte allineamento con l'attività cerebrale cinese e il più debole con quella inglese. Inoltre, il degrado dell'allineamento è correlato alla distanza tipologica formale, con le aree cerebrali legate alla sintassi (IFG) che mostrano gradienti tipologici 2,3× più ripidi rispetto alle regioni lessico-semantiche (PTL). Questa ricerca implica che l'allineamento tra attività cerebrale e LLM non è universale ma influenzato dai dati di addestramento, sfidando le convinzioni esistenti sull'elaborazione neurale del linguaggio tra le lingue.

Fatti principali

  • Lo studio utilizza dati fMRI di 112 partecipanti in inglese, cinese e francese.
  • I dati provengono dal corpus Le Petit Prince.
  • Sette LLM testati: dominanti in inglese, dominanti in cinese e multilingue.
  • Baichuan2-7B è un modello dominante in cinese con architettura corrispondente a LLaMA-2-7B.
  • La dominanza della lingua di addestramento, non l'inglese, guida il pattern di allineamento.
  • Baichuan2-7B si allinea meglio con i cervelli cinesi e peggio con quelli inglesi.
  • La distanza tipologica formale covaria indipendentemente con il degrado dell'allineamento.
  • Le regioni cerebrali associate alla sintassi (IFG) mostrano gradienti tipologici 2,3× più ripidi rispetto alle regioni lessico-semantiche (PTL).

Entità

Istituzioni

  • arXiv

Fonti