Mente alveare come un singolo agente di apprendimento per rinforzo
Un nuovo articolo stabilisce un'equivalenza tra il processo decisionale collettivo negli sciami di api mellifere e l'apprendimento per rinforzo a singolo agente. Gli autori mostrano che la cognizione distribuita emergente di una colonia di api, seguendo semplici regole basate sull'imitazione, si comporta come un singolo agente RL online che interagisce con molti ambienti paralleli. In particolare, il modello di voto ponderato della danza delle api corrisponde a un algoritmo multi-armed bandit chiamato Maynard-Cr. Questo collega due paradigmi: il processo decisionale collettivo tramite imitazione e l'apprendimento per tentativi ed errori di un singolo agente.
Fatti principali
- 1. arXiv:2410.17517v5
- 2. Tipo di annuncio: replace-cross
- 3. Il processo decisionale è essenziale per agenti o gruppi intelligenti
- 4. I sistemi naturali convergono a strategie efficaci tramite decisioni collettive (imitazione) o tentativi ed errori (singolo agente)
- 5. L'articolo stabilisce un'equivalenza tra questi paradigmi usando la ricerca del nido negli sciami di api mellifere
- 6. La cognizione distribuita emergente (mente alveare) da regole di imitazione locali è un singolo agente RL online
- 7. Il modello di voto ponderato della danza delle api corrisponde a un algoritmo multi-armed bandit
- 8. L'algoritmo si chiama Maynard-Cr
Entità
—