ARTFEED — Contemporary Art Intelligence

Il Framework KnowRL Migliora il Ragionamento dei LLM Attraverso il Reinforcement Learning Guidato dalla Conoscenza

ai-technology · 2026-04-15

Un nuovo framework di reinforcement learning chiamato KnowRL affronta la scarsità di ricompense nei grandi modelli linguistici trattando la progettazione di suggerimenti come un problema di guida minimo-sufficiente. L'approccio scompone la guida in punti di conoscenza atomici e utilizza la Ricerca di Sottoinsiemi Vincolati per costruire sottoinsiemi compatti e consapevoli dell'interazione durante l'addestramento. I ricercatori hanno identificato un paradosso dell'interazione di potatura in cui la rimozione di un punto di conoscenza può aiutare mentre la rimozione di più punti simili danneggia le prestazioni, portando a un'ottimizzazione esplicita per una cura robusta dei sottoinsiemi sotto questa struttura di dipendenza. Il metodo è stato addestrato su KnowRL-Nemotron-1.5B da zero, dimostrando capacità di ragionamento migliorate rispetto ai precedenti metodi RL basati su suggerimenti che tipicamente scalano la guida aggiungendo più token, il che introduce ridondanza, incoerenza e sovraccarico di addestramento aggiuntivo. Il framework rappresenta arXiv:2604.12627v1, annunciato come nuova ricerca che si basa sui metodi RLVR per migliorare il ragionamento nei grandi modelli linguistici mitigando al contempo le limitazioni della grave scarsità di ricompense su problemi complessi.

Fatti principali

  • KnowRL è un framework di reinforcement learning guidato dalla conoscenza per grandi modelli linguistici
  • Affronta la scarsità di ricompense nei metodi RLVR per il ragionamento dei LLM
  • Tratta la progettazione di suggerimenti come un problema di guida minimo-sufficiente
  • Scompone la guida in punti di conoscenza atomici
  • Utilizza la Ricerca di Sottoinsiemi Vincolati per costruire sottoinsiemi di addestramento compatti
  • Identifica il paradosso dell'interazione di potatura nella rimozione dei punti di conoscenza
  • Ottimizza esplicitamente per una cura robusta dei sottoinsiemi sotto strutture di dipendenza
  • Addestrato su KnowRL-Nemotron-1.5B da zero

Entità

Fonti