DecomposeR: RL incentrato sul pianificatore per la ricerca approfondita con ricompense basate su DAG
DecomposeR è un framework recentemente introdotto che enfatizza una metodologia incentrata sul pianificatore per condurre compiti di ricerca approfondita. In questo approccio, i modelli linguistici di grandi dimensioni (LLM) vengono utilizzati per ideare strategie di indagine, raccogliere prove e creare risposte complete. Le tecniche tradizionali spesso affrontano sfide nell'assegnazione del credito durante le fasi di pianificazione. DecomposeR utilizza grafi aciclici diretti tipizzati (DAG) per rappresentare chiaramente i piani di ricerca, consentendo una pianificazione esplicita e premiabile. Il framework prevede l'addestramento del modello Qwen3-8B in due fasi: inizialmente, l'apprendimento per rinforzo (RL) del pianificatore si concentra sull'apprendimento della struttura del grafo e della scomposizione delle query, seguito dall'RL del risponditore, che si concentra sull'esecuzione dei rami e sulla sintesi delle risposte finali basate sul piano stabilito. I premi vengono assegnati per token espliciti del pianificatore e output strutturati. L'articolo è disponibile su arXiv con ID 2605.30824.
Fatti principali
- 1. DecomposeR è un framework di ricerca approfondita incentrato sul pianificatore.
- 2. I piani di ricerca sono rappresentati come grafi aciclici diretti tipizzati (DAG).
- 3. Il modello addestrato è Qwen3-8B.
- 4. L'addestramento avviene in due fasi: RL del pianificatore e RL del risponditore.
- 5. L'RL del pianificatore apprende la struttura del grafo e la scomposizione delle query.
- 6. L'RL del risponditore apprende l'esecuzione a livello di ramo e la sintesi finale.
- 7. I premi vengono assegnati a token espliciti del pianificatore.
- 8. L'articolo è disponibile su arXiv:2605.30824.
Entità
Istituzioni
- arXiv