CRM rileva quando i LLM si affidano alla memoria invece che al contesto recuperato
Un nuovo studio di arXiv identifica il 'punto cieco di attribuzione' nella generazione aumentata da recupero (RAG), dove i modelli linguistici producono output coerenti con il contesto dalla memoria parametrica piuttosto che da prove esterne. Gli autori introducono il Monitoraggio della Realtà Computazionale (CRM), adattato dalle scienze cognitive, per rilevare questo fallimento confrontando le rappresentazioni interne con e senza contesto recuperato. Il CRM rivela divergenze rappresentazionali che i monitor a livello di output non rilevano, offrendo un metodo per verificare se il contesto recuperato governa effettivamente la generazione. L'articolo, arXiv:2605.26778, affronta un divario critico per l'implementazione ad alto rischio dei sistemi RAG.
Fatti principali
- L'articolo arXiv 2605.26778 identifica il punto cieco di attribuzione nella RAG
- L'assunzione standard che un output coerente con il contesto implichi un output governato dal contesto è errata
- I modelli possono produrre testo dall'aspetto fedele dalla memoria parametrica quando i documenti recuperati si sovrappongono ai dati di pre-addestramento
- Il Monitoraggio della Realtà Computazionale (CRM) confronta le rappresentazioni interne con e senza contesto
- Il CRM è adattato dal framework di monitoraggio della realtà delle scienze cognitive
- Il CRM rileva divergenze rappresentazionali condizionate dall'appartenenza che i monitor a livello di output non rilevano
- Il CRM non certifica da quale fonte provenga un output
- Lo studio affronta un prerequisito per l'implementazione ad alto rischio della RAG
Entità
Istituzioni
- arXiv