Il framework SDOF riduce il costo di allineamento nell'orchestrazione multi-agente
Il framework SDOF (State-Constrained Dispatch Orchestration Framework) introduce una soluzione al costo di allineamento nell'orchestrazione multi-agente concettualizzando l'esecuzione come una macchina a stati vincolata. Questo framework, creato da ricercatori, incorpora due strati protettivi: un router di intenti specializzato Online-RLHF, addestrato utilizzando la modellazione generativa delle ricompense (GRPO), e un StateAwareDispatcher che esegue controlli di automi finiti GoalStage insieme alla validazione SkillRegistry per precondizioni e postcondizioni. Implementato sulla piattaforma Beisen iTalent, che supporta oltre 6.000 aziende, SDOF ha utilizzato 185 scenari curati da esperti, generando 1.671 chiamate API live. Il router di intenti 7B allineato con GSPO ha raggiunto un'accuratezza congiunta dell'80,9% su un benchmark di routing avversario vincolato, superando il 48,9% di GPT-4o zero-shot. Questo framework mira a imporre vincoli di fase nei processi aziendali reali, migliorando l'affidabilità e la verificabilità nei sistemi multi-agente.
Fatti principali
- 1. SDOF tratta l'esecuzione multi-agente come una macchina a stati vincolata.
- 2. Due strati difensivi: router di intenti Online-RLHF e StateAwareDispatcher.
- 3. Router di intenti addestrato tramite modellazione generativa delle ricompense (GRPO).
- 4. StateAwareDispatcher utilizza controlli di automi finiti GoalStage e validazione SkillRegistry.
- 5. Testato sulla piattaforma Beisen iTalent con oltre 6.000 imprese.
- 6. 185 scenari curati da esperti hanno attivato 1.671 chiamate API live.
- 7. Router di intenti 7B allineato con GSPO ha raggiunto un'accuratezza dell'80,9%.
- 8. GPT-4o zero-shot ha raggiunto un'accuratezza del 48,9% sullo stesso benchmark.
Entità
Istituzioni
- Beisen iTalent
- LangChain
- LangGraph
- CrewAI