OceanPile: Corpus Multimodale su Larga Scala per l'IA Oceanica
I ricercatori hanno introdotto OceanPile, un corpus multimodale su larga scala progettato per superare la frammentazione dei dati nella scienza oceanica. I dati oceanici sono sparsi tra diverse fonti, rumorosi e debolmente etichettati, ostacolando le applicazioni di IA. OceanPile include OceanCorpus, che integra dati sonar, immagini subacquee e visualizzazioni scientifiche marine in uno schema unificato. Questo dataset mira a consentire ai Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM) di affrontare compiti legati all'oceano, come la modellazione climatica e il monitoraggio della biodiversità. Il lavoro affronta un collo di bottiglia critico nell'applicazione dell'IA agli ambienti marini.
Fatti principali
- OceanPile è un corpus multimodale su larga scala per modelli fondativi oceanici.
- I dati oceanici sono frammentati, multimodali, ad alto rumore e debolmente etichettati.
- OceanPile comprende OceanCorpus, una raccolta unificata di dati sonar, immagini subacquee e visualizzazioni scientifiche marine.
- Il dataset mira a colmare il divario per i MLLM nella scienza oceanica.
- Il lavoro è pubblicato su arXiv con identificativo 2605.00877v1.
Entità
Istituzioni
- arXiv