Decomposizione Causale dei Vettori di Funzione nell'Apprendimento In-Contesto Few-Shot
Uno studio recente pubblicato su arXiv (2605.16591) approfondisce i meccanismi alla base dell'apprendimento in-contesto (ICL) nei grandi modelli linguistici, esaminando specificamente come gli esempi few-shot influenzano il vettore di funzione (FV), che dirige le prestazioni del compito. I ricercatori hanno scoperto che un FV n-shot può essere efficacemente rappresentato come una combinazione lineare di sotto-FV derivati da singoli esempi, evidenziando la natura additiva e componibile di questi contributi. Inoltre, hanno scoperto che i modelli aggiustano le loro rappresentazioni basandosi su esempi precedenti, dando priorità a dimostrazioni più informative e chiare. Un'analisi causale distingue il routing Query-Key dagli aggiornamenti dei Value, indicando che i principali miglioramenti alla qualità del FV derivanti dalla contestualizzazione provengono dall'allineamento Query-Key, specialmente in contesti ambigui.
Fatti principali
- Il paper arXiv 2605.16591 analizza i vettori di funzione nell'apprendimento in-contesto.
- Un FV n-shot approssima una combinazione lineare di sotto-FV a livello di esempio.
- I modelli ri-pesano adattivamente le dimostrazioni in base all'informatività e all'ambiguità.
- La decomposizione causale separa il routing Query-Key dagli aggiornamenti dei Value.
- L'allineamento Query-Key contribuisce maggiormente alla qualità del FV in contesti ambigui.
- Lo studio copre molteplici compiti e modelli.
- La ricerca fornisce una spiegazione meccanicistica del prompting few-shot.
- I risultati evidenziano la natura additiva e contestualizzata della composizione del FV.
Entità
Istituzioni
- arXiv