ARTFEED — Contemporary Art Intelligence

Universal Reasoner: Un Modulo di Ragionamento Plug-and-Play per LLM Congelati

ai-technology · 2026-05-22

I ricercatori propongono Universal Reasoner (UniR), un modulo di ragionamento modulare che può essere aggiunto a modelli linguistici di grandi dimensioni (LLM) congelati senza riaddestramento. UniR scompone i segnali di ricompensa in indicazioni a livello di token, consentendo un ragionamento specializzato pur preservando la generalizzazione. Utilizza ricompense verificabili e un approccio di addestramento disaccoppiato, quindi si combina con gli LLM congelati durante l'inferenza aggiungendo logit di output. Ciò affronta l'alto costo e le dipendenze architetturali dei tradizionali metodi di fine-tuning.

Fatti principali

  • UniR è un modulo di ragionamento modulare, componibile e plug-and-play.
  • Funziona con LLM congelati senza riaddestramento.
  • La ricompensa è scomposta in indicazioni a livello di token.
  • L'addestramento è disaccoppiato utilizzando ricompense verificabili.
  • Durante l'inferenza, UniR aggiunge i suoi logit di output all'LLM congelato.
  • I metodi di Parameter-Efficient Fine-Tuning (PEFT) richiedono riaddestramento per ogni backbone.
  • UniR mira a migliorare il ragionamento senza compromettere la generalizzazione.
  • L'approccio riduce le richieste di risorse computazionali.

Entità

Fonti