RoPE fallisce in contesti lunghi: l'attenzione diventa casuale
Una nuova analisi teorica pubblicata su arXiv (2605.15514) dimostra che le Rotary Positional Embeddings (RoPE) perdono la loro efficacia nei modelli linguistici basati su Transformer all'aumentare della lunghezza del contesto. Lo studio astrae dal contenuto specifico, concentrandosi esclusivamente sulla lunghezza del contesto. Mostra che l'attenzione basata su RoPE diventa imprevedibile, perdendo sia il bias di località che la coerenza nella rilevanza dei token. La probabilità di fallimento si avvicina a 0,5, equivalente a un'ipotesi casuale. Inoltre, i punteggi di attenzione possono rimanere invariati quando un token chiave viene spostato o sostituito, indicando un'incapacità di distinguere posizioni o token.
Fatti principali
- Il paper arXiv 2605.15514 identifica limiti intrinseci di RoPE nei modelli linguistici a lungo contesto.
- L'analisi teorica dipende solo dalla lunghezza del contesto, non dal contenuto specifico.
- RoPE perde il bias di località in contesti lunghi, non favorendo più le posizioni vicine rispetto a quelle distanti.
- RoPE perde coerenza nella rilevanza dei token; i punteggi di attenzione diventano imprevedibili.
- La probabilità di fallimento si avvicina a 0,5, non meglio di un'ipotesi casuale.
- I punteggi di attenzione possono rimanere invariati quando un token chiave viene spostato o sostituito.
- Lo studio dimostra che RoPE non riesce a distinguere posizioni o token in contesti lunghi.
Entità
Istituzioni
- arXiv