GeoX: Un Framework di Self-Play per Migliorare il Ragionamento Geospaziale nei VLM
GeoX è un innovativo framework di self-play progettato per migliorare il ragionamento geospaziale nei modelli visione-linguaggio (VLM) senza la necessità di ampi dataset curati da umani. Utilizza programmi eseguibili per creare sfide spaziali, risolvendole attraverso abduzione, deduzione e induzione, mentre un verificatore fornisce segnali di ricompensa per l'apprendimento per rinforzo. Applicato a immagini satellitari e aeree, GeoX migliora le prestazioni dei VLM di base in media di 5,5 punti, eguagliando o superando i baseline addestrati su milioni di esempi curati. Questo framework affronta efficacemente il costoso processo di annotazione di query spaziali complesse sfruttando ricompense verificabili derivate dall'esecuzione di programmi.
Fatti principali
- GeoX è un framework di self-play per il ragionamento geospaziale.
- Utilizza programmi eseguibili per proporre e risolvere problemi spaziali.
- Tre modalità di ragionamento: abduzione, deduzione, induzione.
- Un verificatore esegue programmi per fornire segnali di ricompensa.
- L'apprendimento per rinforzo ottimizza congiuntamente la proposta e la risoluzione dei problemi.
- GeoX migliora i VLM di base fino a 5,5 punti in media.
- Eguaglia o supera i baseline addestrati su milioni di dati curati.
- Il framework è mirato a immagini satellitari e aeree.
Entità
—