I modelli linguistici convergono nelle rappresentazioni ma divergono nel ragionamento

publication · 2026-05-25

Un nuovo studio pubblicato su arXiv (2605.23315) esplora l'ipotesi della rappresentazione platonica, secondo cui i grandi modelli linguistici sviluppano rappresentazioni interne simili indipendentemente dai metodi di addestramento o dalle strutture. I ricercatori hanno valutato 16 modelli di 8 famiglie diverse, con dimensioni comprese tra 1,5 miliardi e 72 miliardi di parametri, affrontando 800 compiti di ragionamento in vari campi come matematica e scienze. Hanno scoperto tre intuizioni principali: primo, i modelli hanno performato meglio sui problemi che trovavano difficili (CKA = 0,897) rispetto a quelli che risolvevano (CKA = 0,830); secondo, mentre le loro rappresentazioni pre-decisione erano allineate (CKA = 0,875), quelle post-decisione variavano; infine, le rappresentazioni legate alle risposte corrette erano meno allineate di quelle irrilevanti per le risposte. Ciò suggerisce che rappresentazioni simili non implicano necessariamente un ragionamento simile.

Fatti principali

Lo studio testa l'ipotesi della rappresentazione platonica su 16 LLM di 8 famiglie
I modelli vanno da 1,5B a 72B parametri
800 problemi di ragionamento in matematica, scienze, senso comune, veridicità
Inversione di difficoltà: convergenza maggiore sui problemi falliti (CKA=0,897) che su quelli risolti (CKA=0,830)
Le rappresentazioni pre-decisione si allineano (CKA=0,875), quelle post-decisione divergono
Le rappresentazioni causalmente rilevanti sono meno allineate di quelle irrilevanti
Pubblicato su arXiv con ID 2605.23315
Tipo di annuncio: cross

I modelli linguistici convergono nelle rappresentazioni ma divergono nel ragionamento

Fatti principali

Entità

Istituzioni

Fonti