ARTFEED — Contemporary Art Intelligence

GeoX: Un Framework di Self-Play per Migliorare il Ragionamento Geospaziale nei VLM

ai-technology · 2026-05-20

GeoX è un innovativo framework di self-play progettato per migliorare il ragionamento geospaziale nei modelli visione-linguaggio (VLM) senza la necessità di ampi dataset curati da umani. Utilizza programmi eseguibili per creare sfide spaziali, risolvendole attraverso abduzione, deduzione e induzione, mentre un verificatore fornisce segnali di ricompensa per l'apprendimento per rinforzo. Applicato a immagini satellitari e aeree, GeoX migliora le prestazioni dei VLM di base in media di 5,5 punti, eguagliando o superando i baseline addestrati su milioni di esempi curati. Questo framework affronta efficacemente il costoso processo di annotazione di query spaziali complesse sfruttando ricompense verificabili derivate dall'esecuzione di programmi.

Fatti principali

  • GeoX è un framework di self-play per il ragionamento geospaziale.
  • Utilizza programmi eseguibili per proporre e risolvere problemi spaziali.
  • Tre modalità di ragionamento: abduzione, deduzione, induzione.
  • Un verificatore esegue programmi per fornire segnali di ricompensa.
  • L'apprendimento per rinforzo ottimizza congiuntamente la proposta e la risoluzione dei problemi.
  • GeoX migliora i VLM di base fino a 5,5 punti in media.
  • Eguaglia o supera i baseline addestrati su milioni di dati curati.
  • Il framework è mirato a immagini satellitari e aeree.

Entità

Fonti