Apprendimento Q Decentralizzato per Passaggi di Consegne in Flussi di Lavoro Multi-Agente

other · 2026-05-20

Un recente preprint su arXiv presenta un approccio strutturato all'apprendimento dei flussi di lavoro in sistemi multi-agente, dove agenti specializzati trasferiscono il controllo tramite un artefatto comune, accedendo solo a dati locali. Lo studio introduce un processo decisionale semi-markoviano vincolato dall'interfaccia (IC-SMDP) che presenta punti decisionali che si verificano a intervalli di passaggio di consegne. I ricercatori introducono anche IC-Q, un metodo di apprendimento Q decentralizzato asincrono che limita il coordinamento inter-agente a un singolo scalare ad ogni passaggio. Inoltre, viene derivato un limite per campioni finiti per IC-Q neurale, scomponendo l'errore in tre componenti distinte: approssimazione di funzione neurale, gap di rappresentazione dell'interfaccia e residuo del tempo di mescolamento basato sullo sconto della durata delle opzioni casuali. Questa ricerca è rilevante per pipeline LLM multi-agente che operano attraverso confini di fiducia o organizzativi, mancando di un apprendista centralizzato per utilizzare traiettorie congiunte.

Fatti principali

arXiv:2605.19140v1
Pubblicato su arXiv
Introduce il framework IC-SMDP
Propone l'algoritmo IC-Q
Coordinamento limitato a uno scalare per passaggio
Limite per campioni finiti per IC-Q neurale
Identificate tre fonti di errore
Mirato a pipeline LLM multi-agente

Apprendimento Q Decentralizzato per Passaggi di Consegne in Flussi di Lavoro Multi-Agente

Fatti principali

Entità

Istituzioni

Fonti