ARTFEED — Contemporary Art Intelligence

Triangolo Impossibile: Efficienza, Compattezza e Richiamo nei Modelli a Contesto Lungo

publication · 2026-05-07

Un recente articolo pubblicato su arXiv stabilisce un compromesso cruciale nei modelli progettati per sequenze lunghe. Afferma che nessun modello può raggiungere simultaneamente Efficienza (calcolo per passo indipendente dalla lunghezza della sequenza), Compattezza (dimensione dello stato indipendente dalla lunghezza della sequenza) e Richiamo (capacità di ricordare fatti storici proporzionale alla lunghezza della sequenza). Gli autori introducono un framework di Processore di Sequenze Online che integra Transformers, modelli a spazio di stato, reti ricorrenti lineari e loro combinazioni. Applicando la Disuguaglianza di Elaborazione dei Dati e la Disuguaglianza di Fano, dimostrano che qualsiasi modello che soddisfi Efficienza e Compattezza può ricordare al massimo O(poly(d)/log V) coppie chiave-valore da una sequenza di qualsiasi lunghezza, dove d rappresenta la dimensione del modello e V indica la dimensione del vocabolario. Lo studio valuta 52 architetture rilasciate prima di marzo 2026, rivelando che ciascuna può soddisfare al massimo due dei tre criteri.

Fatti principali

  • Articolo pubblicato su arXiv con ID 2605.05066
  • Dimostra un compromesso fondamentale nei modelli per sequenze lunghe
  • Tre proprietà: Efficienza, Compattezza, Richiamo
  • Formalizzato all'interno di un'astrazione di Processore di Sequenze Online
  • Utilizza la Disuguaglianza di Elaborazione dei Dati e la Disuguaglianza di Fano
  • Limite di richiamo: O(poly(d)/log V) coppie chiave-valore
  • Classifica 52 architetture antecedenti a marzo 2026
  • Nessun modello raggiunge tutte e tre le proprietà simultaneamente

Entità

Istituzioni

  • arXiv

Fonti