Studio Rivela Limitazioni dell'Attenzione Causale nella Sensibilità all'Ordine dei Prompt nei Modelli Linguistici
Un documento di ricerca pubblicato su arXiv dimostra che i grandi modelli linguistici mostrano variazioni significative delle prestazioni in base alla struttura del prompt. Nelle attività di risposta a domande a scelta multipla, disporre il contesto prima delle domande e delle opzioni produce un'accuratezza superiore di oltre 14 punti percentuali rispetto all'ordine inverso. Questo schema si mantiene costantemente attraverso vari modelli e dataset. Lo studio identifica i meccanismi di attenzione causale come causa principale: quando domande e opzioni appaiono per prime, la maschera causale impedisce ai token delle opzioni di accedere alle informazioni contestuali, creando un collo di bottiglia informativo. Questa limitazione architetturale rende il contesto invisibile alle opzioni in determinate configurazioni di prompt. La ricerca fornisce un'analisi sistematica di come i meccanismi di attenzione influenzino il comportamento del modello nelle applicazioni pratiche. I risultati sono stati condivisi tramite il server di preprint arXiv, che ospita articoli scientifici in campi tra cui informatica e linguistica. Il framework arXivLabs della piattaforma consente la collaborazione comunitaria su progetti sperimentali mantenendo i valori di apertura e privacy dei dati.
Fatti principali
- I grandi modelli linguistici mostrano sensibilità alla struttura del prompt
- L'ordine contesto-domanda-opzione supera domanda-opzione-contesto di oltre il 14%
- Schema coerente attraverso più modelli e dataset
- Attenzione causale identificata come meccanismo centrale
- La maschera causale impedisce ai token delle opzioni di prestare attenzione al contesto nei prompt QOC
- Crea un collo di bottiglia informativo dove il contesto diventa invisibile
- Ricerca pubblicata sul server di preprint arXiv
- arXivLabs consente la collaborazione comunitaria su progetti sperimentali
Entità
Istituzioni
- arXiv