L'attenzione incrociata multi-strato è ottimale per l'apprendimento multi-modale in contesto
Un nuovo articolo teorico su arXiv (2602.04872) dimostra che i meccanismi di attenzione incrociata multi-strato sono provabilmente ottimali per l'apprendimento multi-modale in contesto. Lo studio introduce un quadro matematicamente trattabile basato su modelli a fattori latenti per analizzare architetture simili a transformer. Dimostra che l'auto-attenzione lineare a singolo strato non riesce a ottenere una previsione Bayes-ottimale in modo uniforme su tutte le distribuzioni di compiti. Per superare questo limite, gli autori propongono un meccanismo di attenzione incrociata linearizzata e mostrano che l'attenzione incrociata multi-strato può recuperare le prestazioni Bayes-ottimali in contesti multi-modali. Il lavoro estende la comprensione teorica dell'apprendimento in contesto da dati unimodali a dati multi-modali, fornendo una base per progettare sistemi di intelligenza artificiale multi-modali più efficaci.
Fatti principali
- Articolo su arXiv: 2602.04872
- Si concentra sull'apprendimento multi-modale in contesto
- Utilizza un modello a fattori latenti per rappresentare dati multi-modali
- L'auto-attenzione lineare a singolo strato non è Bayes-ottimale
- Propone un meccanismo di attenzione incrociata linearizzata
- L'attenzione incrociata multi-strato raggiunge prestazioni Bayes-ottimali
- Estende la teoria da dati unimodali a dati multi-modali
- Fornisce un quadro per studiare l'apprendimento multi-modale
Entità
Istituzioni
- arXiv