DecomposeR: RL incentrato sul pianificatore per la ricerca approfondita con ricompense basate su DAG

ai-technology · 2026-06-01

DecomposeR è un framework recentemente introdotto che enfatizza una metodologia incentrata sul pianificatore per condurre compiti di ricerca approfondita. In questo approccio, i modelli linguistici di grandi dimensioni (LLM) vengono utilizzati per ideare strategie di indagine, raccogliere prove e creare risposte complete. Le tecniche tradizionali spesso affrontano sfide nell'assegnazione del credito durante le fasi di pianificazione. DecomposeR utilizza grafi aciclici diretti tipizzati (DAG) per rappresentare chiaramente i piani di ricerca, consentendo una pianificazione esplicita e premiabile. Il framework prevede l'addestramento del modello Qwen3-8B in due fasi: inizialmente, l'apprendimento per rinforzo (RL) del pianificatore si concentra sull'apprendimento della struttura del grafo e della scomposizione delle query, seguito dall'RL del risponditore, che si concentra sull'esecuzione dei rami e sulla sintesi delle risposte finali basate sul piano stabilito. I premi vengono assegnati per token espliciti del pianificatore e output strutturati. L'articolo è disponibile su arXiv con ID 2605.30824.

Fatti principali

1. DecomposeR è un framework di ricerca approfondita incentrato sul pianificatore.
2. I piani di ricerca sono rappresentati come grafi aciclici diretti tipizzati (DAG).
3. Il modello addestrato è Qwen3-8B.
4. L'addestramento avviene in due fasi: RL del pianificatore e RL del risponditore.
5. L'RL del pianificatore apprende la struttura del grafo e la scomposizione delle query.
6. L'RL del risponditore apprende l'esecuzione a livello di ramo e la sintesi finale.
7. I premi vengono assegnati a token espliciti del pianificatore.
8. L'articolo è disponibile su arXiv:2605.30824.

DecomposeR: RL incentrato sul pianificatore per la ricerca approfondita con ricompense basate su DAG

Fatti principali

Entità

Istituzioni

Fonti