Universal Reasoner: Un Modulo di Ragionamento Plug-and-Play per LLM Congelati
I ricercatori propongono Universal Reasoner (UniR), un modulo di ragionamento modulare che può essere aggiunto a modelli linguistici di grandi dimensioni (LLM) congelati senza riaddestramento. UniR scompone i segnali di ricompensa in indicazioni a livello di token, consentendo un ragionamento specializzato pur preservando la generalizzazione. Utilizza ricompense verificabili e un approccio di addestramento disaccoppiato, quindi si combina con gli LLM congelati durante l'inferenza aggiungendo logit di output. Ciò affronta l'alto costo e le dipendenze architetturali dei tradizionali metodi di fine-tuning.
Fatti principali
- UniR è un modulo di ragionamento modulare, componibile e plug-and-play.
- Funziona con LLM congelati senza riaddestramento.
- La ricompensa è scomposta in indicazioni a livello di token.
- L'addestramento è disaccoppiato utilizzando ricompense verificabili.
- Durante l'inferenza, UniR aggiunge i suoi logit di output all'LLM congelato.
- I metodi di Parameter-Efficient Fine-Tuning (PEFT) richiedono riaddestramento per ogni backbone.
- UniR mira a migliorare il ragionamento senza compromettere la generalizzazione.
- L'approccio riduce le richieste di risorse computazionali.
Entità
—