Affermazioni sull'introspezione dei LLM messe in discussione dalla ricerca sulla metacognizione umana
Un nuovo articolo su arXiv (2605.26242) mette in discussione le recenti affermazioni secondo cui i grandi modelli linguistici possono fare introspezione—rilevare e riferire i propri stati interni. Basandosi sulla ricerca sulla metacognizione umana, gli autori sostengono che tali conclusioni sono premature. Essi affermano che le sole prove comportamentali non possono distinguere la genuina introspezione dal riconoscimento di schemi basati su indizi superficiali. Riesaminando due paradigmi di valutazione, scoprono che i modelli non riescono a distinguere in modo affidabile la manomissione dello stato interno dalla manipolazione dell'input, suggerendo che il successo negli studi precedenti riflette il rilevamento di anomalie piuttosto che l'introspezione.
Fatti principali
- L'articolo arXiv:2605.26242 mette in discussione le affermazioni sull'introspezione dei LLM.
- Gli autori si basano sulla ricerca sulla metacognizione umana.
- Sostengono che le prove comportamentali sono insufficienti per affermazioni forti sull'introspezione.
- I modelli non riescono a distinguere in modo affidabile la manomissione dello stato interno dalla manipolazione dell'input.
- Il successo precedente potrebbe riflettere il rilevamento di anomalie, non l'introspezione.
Entità
Istituzioni
- arXiv