Il Framework KnowRL Migliora il Ragionamento dei LLM Attraverso il Reinforcement Learning Guidato dalla Conoscenza

ai-technology · 2026-04-15

Un nuovo framework di reinforcement learning chiamato KnowRL affronta la scarsità di ricompense nei grandi modelli linguistici trattando la progettazione di suggerimenti come un problema di guida minimo-sufficiente. L'approccio scompone la guida in punti di conoscenza atomici e utilizza la Ricerca di Sottoinsiemi Vincolati per costruire sottoinsiemi compatti e consapevoli dell'interazione durante l'addestramento. I ricercatori hanno identificato un paradosso dell'interazione di potatura in cui la rimozione di un punto di conoscenza può aiutare mentre la rimozione di più punti simili danneggia le prestazioni, portando a un'ottimizzazione esplicita per una cura robusta dei sottoinsiemi sotto questa struttura di dipendenza. Il metodo è stato addestrato su KnowRL-Nemotron-1.5B da zero, dimostrando capacità di ragionamento migliorate rispetto ai precedenti metodi RL basati su suggerimenti che tipicamente scalano la guida aggiungendo più token, il che introduce ridondanza, incoerenza e sovraccarico di addestramento aggiuntivo. Il framework rappresenta arXiv:2604.12627v1, annunciato come nuova ricerca che si basa sui metodi RLVR per migliorare il ragionamento nei grandi modelli linguistici mitigando al contempo le limitazioni della grave scarsità di ricompense su problemi complessi.

Fatti principali

KnowRL è un framework di reinforcement learning guidato dalla conoscenza per grandi modelli linguistici
Affronta la scarsità di ricompense nei metodi RLVR per il ragionamento dei LLM
Tratta la progettazione di suggerimenti come un problema di guida minimo-sufficiente
Scompone la guida in punti di conoscenza atomici
Utilizza la Ricerca di Sottoinsiemi Vincolati per costruire sottoinsiemi di addestramento compatti
Identifica il paradosso dell'interazione di potatura nella rimozione dei punti di conoscenza
Ottimizza esplicitamente per una cura robusta dei sottoinsiemi sotto strutture di dipendenza
Addestrato su KnowRL-Nemotron-1.5B da zero

Entità

—

Fonti

arXiv cs.AI — 2026-04-15