OLLM: Modelli Linguistici di Grande Dimensione Basati su Opzioni Introducono Variabili Latenti Discrete per la Predizione del Token Successivo
Una nuova tecnica denominata Options LLM (OLLM) sostituisce la tradizionale predizione del singolo token successivo nei modelli linguistici di grande dimensione con una raccolta di opzioni apprese collegate a una variabile latente discreta. Questo metodo cattura efficacemente la variazione utilizzando uno spazio latente compatto che caratterizza diverse scelte plausibili per il token successivo, che possono essere selezionate o esplorate da una politica a valle. Dal punto di vista architetturale, OLLM funziona come un 'plug-in' leggero, integrando un codificatore e un decodificatore prima dello strato di output, consentendo la trasformazione di quasi qualsiasi LLM pre-addestrato con parametri aggiuntivi minimi. Applicato a un'architettura di base da 1,7 miliardi di parametri addestrata su OpenMathReasoning e valutata su OmniMath, solo l'1,56% dei parametri era addestrabile. Mentre le baseline adattate con LoRA all'avanguardia raggiungono al massimo il 51% di accuratezza nella risposta finale, l'insieme di opzioni di OLLM può arrivare a circa il 70% con una selezione tardiva ottimale. A differenza dei metodi tradizionali che dipendono da euristiche di temperatura o campionamento per la diversità, OLLM modella esplicitamente la variazione attraverso il suo framework di variabili latenti discrete. L'articolo che descrive OLLM è accessibile su arXiv con l'identificatore 2604.19087v1.
Fatti principali
- OLLM sostituisce la predizione del singolo token successivo con opzioni apprese indicizzate da una variabile latente discreta
- Il metodo modella esplicitamente la variazione attraverso uno spazio latente ridotto che parametrizza multiple opzioni plausibili per il token successivo
- OLLM è architetturalmente un plug-in leggero che inserisce strati di codificatore e decodificatore prima dello strato di output
- L'approccio consente di convertire quasi qualsiasi LLM pre-addestrato con parametri aggiuntivi minimi
- Applicato a un'architettura di base da 1,7 miliardi di parametri con solo l'1,56% di parametri addestrabili
- Addestrato su OpenMathReasoning e valutato su OmniMath
- Le baseline adattate con LoRA raggiungono un picco del 51% di correttezza nella risposta finale
- OLLM consente fino a circa il 70% di correttezza sotto selezione tardiva ottimale
Entità
Istituzioni
- arXiv