Metodo MARL Multi-Agente Mantiene Azioni Subottimali per Ottimi Variabili

other · 2026-05-22

Un nuovo approccio per l'apprendimento per rinforzo multi-agente cooperativo (MARL), chiamato Successive Sub-value Q-learning (S2Q), è stato introdotto dai ricercatori. A differenza dei metodi tradizionali di decomposizione del valore che si concentrano su una singola azione migliore, S2Q sviluppa diverse funzioni di sub-valore, permettendo di mantenere l'accesso ad azioni alternative di alto valore. Questa flessibilità aiuta l'algoritmo ad adattarsi ai cambiamenti nella funzione di valore sottostante durante l'addestramento, impedendo che si stabilizzi su politiche subottimali. Integrando queste funzioni di sub-valore in una politica comportamentale basata su Softmax, S2Q promuove l'esplorazione continua e un rapido adattamento agli ottimi mutevoli. Test su benchmark MARL impegnativi dimostrano che S2Q supera costantemente una serie di algoritmi MARL in termini di adattabilità e prestazioni. Il codice è disponibile al pubblico.

Fatti principali

S2Q sta per Successive Sub-value Q-learning
S2Q apprende multiple funzioni di sub-valore
Le funzioni di sub-valore mantengono azioni alternative di alto valore
S2Q utilizza una politica comportamentale basata su Softmax
S2Q affronta funzioni di valore mutevoli in MARL
S2Q supera vari algoritmi MARL nei benchmark
Il codice è disponibile all'URL fornito
La ricerca è in informatica e intelligenza artificiale

Metodo MARL Multi-Agente Mantiene Azioni Subottimali per Ottimi Variabili

Fatti principali

Entità

Istituzioni

Fonti