Analisi Teorica del Ragionamento nei LLM tramite Trasporto Ottimale
Uno studio recente pubblicato su arXiv (2605.19944) introduce un approccio formale al ragionamento all'interno di grandi modelli linguistici attraverso il trasporto ottimale. Questo metodo consiste nel proiettare percorsi discreti in uno spazio metrico continuo per misurare i cambiamenti di dominio utilizzando la distanza di Wasserstein-1. I risultati indicano che i meccanismi di attenzione dipendenti dalla posizione, come la codifica posizionale assoluta, non mantengono l'invarianza per traslazione, producendo una costante di Lipschitz Ω(1) e un rischio anticipato. Al contrario, metodi invarianti per traslazione come i Rotary Embeddings mantengono con successo l'equivarianza e limitano l'errore. Inoltre, gli autori correlano il backtracking sequenziale con un linguaggio Dyck-k, stabilendo un limite inferiore definitivo sulla profondità del circuito per i Transformer TC⁰.
Fatti principali
- L'articolo arXiv:2605.19944 analizza il ragionamento nei LLM tramite trasporto ottimale.
- Utilizza la distanza di Wasserstein-1 per quantificare i cambiamenti di dominio.
- L'attenzione dipendente dalla posizione (es. codifica posizionale assoluta) produce una costante di Lipschitz Ω(1).
- I meccanismi invarianti per traslazione (es. Rotary Embeddings) preservano l'equivarianza e limitano l'errore.
- Il backtracking sequenziale mappato al linguaggio Dyck-k stabilisce un limite inferiore sulla profondità del circuito per i Transformer TC⁰.
Entità
Istituzioni
- arXiv