Open-SAT: Miglioramento dell'Embedding delle Query tramite LLM per il Recupero di Immagini Satellitari
I ricercatori propongono Open-SAT, un algoritmo senza addestramento che perfeziona gli embedding delle query utilizzando grandi modelli linguistici (LLM) per migliorare il recupero di oggetti a vocabolario aperto in immagini satellitari. Il metodo affronta la sfida di allineare le query in linguaggio naturale con le immagini satellitari, dove modelli visione-linguaggio come CLIP spesso hanno difficoltà. Open-SAT opera al momento dell'inferenza, sfruttando gli LLM per perfezionare gli embedding testuali e un database vettoriale per un recupero efficiente. L'approccio non richiede addestramento aggiuntivo, rendendolo pratico per applicazioni reali. L'articolo è disponibile su arXiv con ID 2605.05344.
Fatti principali
- Open-SAT è un algoritmo di perfezionamento degli embedding delle query senza addestramento.
- Utilizza LLM per perfezionare gli embedding testuali al momento dell'inferenza.
- Il metodo migliora l'allineamento tra le query degli utenti e le immagini satellitari.
- Modelli visione-linguaggio come CLIP sono utilizzati per gli embedding delle immagini.
- Un database vettoriale memorizza gli embedding delle immagini per un recupero efficiente.
- L'approccio affronta le sfide del recupero di oggetti a vocabolario aperto.
- L'articolo proviene da arXiv con ID 2605.05344.
- L'algoritmo non richiede addestramento aggiuntivo.
Entità
Istituzioni
- arXiv