EO-Gym: Ambiente Interattivo per Agenti di Osservazione della Terra
I ricercatori hanno lanciato EO-Gym, un innovativo framework interattivo progettato per agenti di Osservazione della Terra (EO), che supera i limiti degli attuali benchmark che considerano l'analisi EO come compiti statici e a singolo turno. EO-Gym presenta un ambiente eseguibile strutturato simile a uno spazio di lavoro geospaziale locale in stile Gymnasium, supportato da oltre 660.000 file multimodali categorizzati per località, tempo e tipo di sensore. Incorpora 35 strumenti EO specializzati in sei categorie di compiti. Da questa configurazione, il team ha sviluppato EO-Gym-Data, un benchmark composto da 9.078 traiettorie e 34.604 passaggi di ragionamento, basato su otto dataset EO pubblici, tra cui immagini Landsat e Sentinel-2. Una valutazione di 10 modelli visione-linguaggio (VLM), sia aperti che chiusi, ha indicato che anche i modelli generici robusti affrontano sfide con il ragionamento interattivo e multi-step essenziale per l'analisi EO.
Fatti principali
- EO-Gym è un ambiente interattivo multimodale per agenti di Osservazione della Terra.
- Affronta la lacuna dei benchmark EO a input fisso e singolo turno.
- L'ambiente è uno spazio di lavoro geospaziale locale in stile Gymnasium.
- Contiene oltre 660.000 file multimodali indicizzati per località, tempo e tipo di sensore.
- Include 35 strumenti EO specializzati in sei famiglie di compiti.
- Il benchmark EO-Gym-Data ha 9.078 traiettorie e 34.604 passaggi di ragionamento.
- Basato su otto dataset EO pubblici più immagini Landsat e Sentinel-2.
- Valutati 10 VLM; i modelli generici ancora faticano.
Entità
Istituzioni
- arXiv