ARTFEED — Contemporary Art Intelligence

DecomposeR: RL incentrato sul pianificatore per la ricerca approfondita con ricompense basate su DAG

ai-technology · 2026-06-01

DecomposeR è un framework recentemente introdotto che enfatizza una metodologia incentrata sul pianificatore per condurre compiti di ricerca approfondita. In questo approccio, i modelli linguistici di grandi dimensioni (LLM) vengono utilizzati per ideare strategie di indagine, raccogliere prove e creare risposte complete. Le tecniche tradizionali spesso affrontano sfide nell'assegnazione del credito durante le fasi di pianificazione. DecomposeR utilizza grafi aciclici diretti tipizzati (DAG) per rappresentare chiaramente i piani di ricerca, consentendo una pianificazione esplicita e premiabile. Il framework prevede l'addestramento del modello Qwen3-8B in due fasi: inizialmente, l'apprendimento per rinforzo (RL) del pianificatore si concentra sull'apprendimento della struttura del grafo e della scomposizione delle query, seguito dall'RL del risponditore, che si concentra sull'esecuzione dei rami e sulla sintesi delle risposte finali basate sul piano stabilito. I premi vengono assegnati per token espliciti del pianificatore e output strutturati. L'articolo è disponibile su arXiv con ID 2605.30824.

Fatti principali

  • 1. DecomposeR è un framework di ricerca approfondita incentrato sul pianificatore.
  • 2. I piani di ricerca sono rappresentati come grafi aciclici diretti tipizzati (DAG).
  • 3. Il modello addestrato è Qwen3-8B.
  • 4. L'addestramento avviene in due fasi: RL del pianificatore e RL del risponditore.
  • 5. L'RL del pianificatore apprende la struttura del grafo e la scomposizione delle query.
  • 6. L'RL del risponditore apprende l'esecuzione a livello di ramo e la sintesi finale.
  • 7. I premi vengono assegnati a token espliciti del pianificatore.
  • 8. L'articolo è disponibile su arXiv:2605.30824.

Entità

Istituzioni

  • arXiv

Fonti