ARTFEED — Contemporary Art Intelligence

Apprendimento Q Decentralizzato per Passaggi di Consegne in Flussi di Lavoro Multi-Agente

other · 2026-05-20

Un recente preprint su arXiv presenta un approccio strutturato all'apprendimento dei flussi di lavoro in sistemi multi-agente, dove agenti specializzati trasferiscono il controllo tramite un artefatto comune, accedendo solo a dati locali. Lo studio introduce un processo decisionale semi-markoviano vincolato dall'interfaccia (IC-SMDP) che presenta punti decisionali che si verificano a intervalli di passaggio di consegne. I ricercatori introducono anche IC-Q, un metodo di apprendimento Q decentralizzato asincrono che limita il coordinamento inter-agente a un singolo scalare ad ogni passaggio. Inoltre, viene derivato un limite per campioni finiti per IC-Q neurale, scomponendo l'errore in tre componenti distinte: approssimazione di funzione neurale, gap di rappresentazione dell'interfaccia e residuo del tempo di mescolamento basato sullo sconto della durata delle opzioni casuali. Questa ricerca è rilevante per pipeline LLM multi-agente che operano attraverso confini di fiducia o organizzativi, mancando di un apprendista centralizzato per utilizzare traiettorie congiunte.

Fatti principali

  • arXiv:2605.19140v1
  • Pubblicato su arXiv
  • Introduce il framework IC-SMDP
  • Propone l'algoritmo IC-Q
  • Coordinamento limitato a uno scalare per passaggio
  • Limite per campioni finiti per IC-Q neurale
  • Identificate tre fonti di errore
  • Mirato a pipeline LLM multi-agente

Entità

Istituzioni

  • arXiv

Fonti