ARTFEED — Contemporary Art Intelligence

Metodo MARL Multi-Agente Mantiene Azioni Subottimali per Ottimi Variabili

other · 2026-05-22

Un nuovo approccio per l'apprendimento per rinforzo multi-agente cooperativo (MARL), chiamato Successive Sub-value Q-learning (S2Q), è stato introdotto dai ricercatori. A differenza dei metodi tradizionali di decomposizione del valore che si concentrano su una singola azione migliore, S2Q sviluppa diverse funzioni di sub-valore, permettendo di mantenere l'accesso ad azioni alternative di alto valore. Questa flessibilità aiuta l'algoritmo ad adattarsi ai cambiamenti nella funzione di valore sottostante durante l'addestramento, impedendo che si stabilizzi su politiche subottimali. Integrando queste funzioni di sub-valore in una politica comportamentale basata su Softmax, S2Q promuove l'esplorazione continua e un rapido adattamento agli ottimi mutevoli. Test su benchmark MARL impegnativi dimostrano che S2Q supera costantemente una serie di algoritmi MARL in termini di adattabilità e prestazioni. Il codice è disponibile al pubblico.

Fatti principali

  • S2Q sta per Successive Sub-value Q-learning
  • S2Q apprende multiple funzioni di sub-valore
  • Le funzioni di sub-valore mantengono azioni alternative di alto valore
  • S2Q utilizza una politica comportamentale basata su Softmax
  • S2Q affronta funzioni di valore mutevoli in MARL
  • S2Q supera vari algoritmi MARL nei benchmark
  • Il codice è disponibile all'URL fornito
  • La ricerca è in informatica e intelligenza artificiale

Entità

Istituzioni

  • arXiv

Fonti