Universal Reasoner: Un Modulo di Ragionamento Plug-and-Play per LLM Congelati

ai-technology · 2026-05-22

I ricercatori propongono Universal Reasoner (UniR), un modulo di ragionamento modulare che può essere aggiunto a modelli linguistici di grandi dimensioni (LLM) congelati senza riaddestramento. UniR scompone i segnali di ricompensa in indicazioni a livello di token, consentendo un ragionamento specializzato pur preservando la generalizzazione. Utilizza ricompense verificabili e un approccio di addestramento disaccoppiato, quindi si combina con gli LLM congelati durante l'inferenza aggiungendo logit di output. Ciò affronta l'alto costo e le dipendenze architetturali dei tradizionali metodi di fine-tuning.

Fatti principali

UniR è un modulo di ragionamento modulare, componibile e plug-and-play.
Funziona con LLM congelati senza riaddestramento.
La ricompensa è scomposta in indicazioni a livello di token.
L'addestramento è disaccoppiato utilizzando ricompense verificabili.
Durante l'inferenza, UniR aggiunge i suoi logit di output all'LLM congelato.
I metodi di Parameter-Efficient Fine-Tuning (PEFT) richiedono riaddestramento per ogni backbone.
UniR mira a migliorare il ragionamento senza compromettere la generalizzazione.
L'approccio riduce le richieste di risorse computazionali.

Entità

—

Fonti

arXiv cs.AI — 2026-05-21