Modelli Linguistici Gerarchici Mostrano Scaling Prevedibile e Vantaggi nel Ragionamento
Un nuovo articolo su arXiv (2605.13687) introduce linguaggi sintetici con struttura gerarchica generati da un processo di broadcast su alberi, consentendo un'analisi precisa della lunghezza del contesto e del ragionamento nella generazione autoregressiva. Gli autori propongono un ansatz esatto a k-grammi come sostituto per i transformer con lunghezza del contesto k, validato empiricamente. Per il processo di broadcast di Ising, dimostrano che la varianza delle somme generate scala log-linearmente con la profondità del contesto e che la curtosi converge a quella gaussiana, deviando dal linguaggio vero per contesto sublineare. Per il processo di broadcast di colorazione nel regime di congelamento, anche i modelli a contesto limitato mostrano deviazioni prevedibili.
Fatti principali
- L'articolo introduce linguaggi sintetici con struttura gerarchica tramite processo di broadcast su alberi
- Un ansatz esatto a k-grammi sostituisce i transformer con lunghezza del contesto k
- Processo di broadcast di Ising: varianza scala log-linearmente, curtosi converge a gaussiana
- Processo di broadcast di colorazione analizzato nel regime di congelamento
- Leggi di scaling prevedibili per statistiche distributive
- Validazione empirica dell'ansatz
- Vantaggi dimostrabili del ragionamento nella generazione autoregressiva
- Preprint arXiv 2605.13687
Entità
Istituzioni
- arXiv