Apprendimento Q Decentralizzato per Passaggi di Consegne in Flussi di Lavoro Multi-Agente
Un recente preprint su arXiv presenta un approccio strutturato all'apprendimento dei flussi di lavoro in sistemi multi-agente, dove agenti specializzati trasferiscono il controllo tramite un artefatto comune, accedendo solo a dati locali. Lo studio introduce un processo decisionale semi-markoviano vincolato dall'interfaccia (IC-SMDP) che presenta punti decisionali che si verificano a intervalli di passaggio di consegne. I ricercatori introducono anche IC-Q, un metodo di apprendimento Q decentralizzato asincrono che limita il coordinamento inter-agente a un singolo scalare ad ogni passaggio. Inoltre, viene derivato un limite per campioni finiti per IC-Q neurale, scomponendo l'errore in tre componenti distinte: approssimazione di funzione neurale, gap di rappresentazione dell'interfaccia e residuo del tempo di mescolamento basato sullo sconto della durata delle opzioni casuali. Questa ricerca è rilevante per pipeline LLM multi-agente che operano attraverso confini di fiducia o organizzativi, mancando di un apprendista centralizzato per utilizzare traiettorie congiunte.
Fatti principali
- arXiv:2605.19140v1
- Pubblicato su arXiv
- Introduce il framework IC-SMDP
- Propone l'algoritmo IC-Q
- Coordinamento limitato a uno scalare per passaggio
- Limite per campioni finiti per IC-Q neurale
- Identificate tre fonti di errore
- Mirato a pipeline LLM multi-agente
Entità
Istituzioni
- arXiv