Modelli di IA Mostrano Abilità Cognitive Disomogenee tra le Generazioni
Uno studio recente presenta un quadro psicometrico progettato per valutare le abilità cognitive dei modelli di IA generativa, confrontandoli con gli standard umani e monitorando i loro progressi attraverso le generazioni. Utilizzando compiti della Wechsler Adult Intelligence Scale, i ricercatori hanno scoperto che i migliori modelli multimodali eccellono nella comprensione verbale e nella memoria di lavoro, raggiungendo un punteggio superiore al 98° percentile, mentre hanno ottenuto scarsi risultati nel ragionamento percettivo, scendendo al di sotto dell'1° percentile. Per misurare i progressi oltre le capacità umane, il team ha stabilito il benchmark Artificial Intelligence Quotient (AIQ), applicato a sei generazioni di due famiglie di modelli, rivelando miglioramenti delle prestazioni notevoli ma disomogenei.
Fatti principali
- Lo studio introduce un quadro psicometrico per valutare la cognizione dell'IA generativa.
- I modelli sono stati testati utilizzando compiti della Wechsler Adult Intelligence Scale.
- Prestazioni quasi massime nella comprensione verbale e nella memoria di lavoro (>98° percentile).
- Prestazioni quasi nulle nel ragionamento percettivo (<1° percentile).
- Sviluppato il benchmark AIQ per tracciare l'evoluzione cognitiva dell'IA.
- Applicato a sei generazioni e due famiglie di modelli.
- I guadagni di prestazione sono significativi ma asimmetrici.
- La ricerca mira a far progredire la valutazione dell'intelligenza artificiale generale.
Entità
—