Il Framework SkillGraph Abilita la Collaborazione Multi-Agente Auto-Evolvente con Topologia Dinamica
Un nuovo articolo di ricerca introduce SkillGraph, un framework che affronta le limitazioni nella scalabilità dei modelli visione-linguaggio nei Sistemi Multiagente Visivi (VMAS). L'approccio risolve due problemi interconnessi: topologie di comunicazione fisse che ignorano il contenuto visivo e il contesto della query, e capacità di ragionamento degli agenti statiche durante il dispiegamento. Questi problemi si rafforzano a vicenda: topologie rigide non possono sfruttare competenze più ricche degli agenti, mentre agenti statici mancano di motivazione per specializzarsi per query specifiche. SkillGraph evolve congiuntamente sia le competenze degli agenti che la topologia di comunicazione. Il framework impiega un Trasformatore Grafico Multimodale (MMGT) che codifica token visivi, semantica delle istruzioni e incorporamenti di abilità attive per prevedere grafi di collaborazione condizionati dalla query. Questo sostituisce il routing manuale con un flusso di informazioni dinamico e consapevole del contenuto. Inoltre, un componente Skill Designer distilla e affina euristiche di ragionamento dai casi di fallimento, creando un sistema auto-evolvente. La ricerca è stata pubblicata su arXiv con identificatore 2604.17503v1, classificata come nuovo annuncio. Il lavoro si concentra sul superamento degli attuali colli di bottiglia nei sistemi visivi multi-agente abilitando strutture di collaborazione adattive che rispondono sia agli input visivi che ai requisiti del compito.
Fatti principali
- SkillGraph è un framework per evolvere le competenze degli agenti e la topologia di comunicazione nei Sistemi Multiagente Visivi
- Affronta topologie di comunicazione fisse che sono cieche al contenuto visivo e al contesto della query
- Affronta capacità di ragionamento degli agenti statiche durante il dispiegamento
- Il framework utilizza un Trasformatore Grafico Multimodale (MMGT) per codificare token visivi, semantica delle istruzioni e incorporamenti di abilità attive
- MMGT prevede grafi di collaborazione condizionati dalla query per un flusso di informazioni dinamico e consapevole del contenuto
- Un componente Skill Designer distilla e affina euristiche di ragionamento dai casi di fallimento
- La ricerca è stata pubblicata su arXiv con identificatore 2604.17503v1
- Il tipo di annuncio è classificato come nuovo
Entità
Istituzioni
- arXiv