Nuovo Framework AI Basato su Mamba Sviluppato per il Coordinamento di Robot Subacquei Biomimetici

ai-technology · 2026-04-22

Un nuovo framework di intelligenza artificiale chiamato ottimizzazione della politica relativa di gruppo multi-agente basata su Mamba (M²GRPO) è stato introdotto per affrontare le sfide dell'inseguimento cooperativo nei robot subacquei biomimetici. Il sistema affronta i problemi del processo decisionale a lungo termine, dell'osservabilità parziale e del coordinamento inter-robot integrando una politica Mamba selettiva dello spazio degli stati con l'ottimizzazione della politica relativa di gruppo. Operando secondo il paradigma di addestramento centralizzato ed esecuzione decentralizzata, la politica basata su Mamba utilizza la cronologia delle osservazioni per catturare le dipendenze temporali su periodi prolungati. Impiega caratteristiche relazionali basate sull'attenzione per codificare le interazioni tra gli agenti, generando azioni continue limitate attraverso il campionamento gaussiano normalizzato. Il framework migliora ulteriormente l'assegnazione del credito mantenendo la stabilità calcolando i vantaggi relativi di gruppo attraverso processi di normalizzazione. Questo approccio mira a fornire sia espressività che stabilità nei metodi di apprendimento delle politiche per i sistemi robotici subacquei che imitano organismi biologici. La ricerca è stata documentata nel preprint arXiv 2604.19404v1, annunciato come abstract interdisciplinare. Il lavoro si rivolge specificamente alle sfide fondamentali negli scenari di inseguimento cooperativo dove i metodi tradizionali si sono rivelati inadeguati per i complessi requisiti degli ambienti subacquei biomimetici.

Fatti principali

Il framework M²GRPO integra la politica Mamba selettiva dello spazio degli stati con l'ottimizzazione della politica relativa di gruppo
Progettato per robot subacquei biomimetici in scenari di inseguimento cooperativo
Affronta il processo decisionale a lungo termine, l'osservabilità parziale e il coordinamento inter-robot
Utilizza il paradigma di addestramento centralizzato ed esecuzione decentralizzata
La politica basata su Mamba cattura le dipendenze temporali dalla cronologia delle osservazioni
Impiega caratteristiche relazionali basate sull'attenzione per codificare le interazioni inter-agente
Produce azioni continue limitate attraverso il campionamento gaussiano normalizzato
Migliora l'assegnazione del credito mantenendo la stabilità attraverso i vantaggi relativi di gruppo

Nuovo Framework AI Basato su Mamba Sviluppato per il Coordinamento di Robot Subacquei Biomimetici

Fatti principali

Entità

Istituzioni

Fonti