Il Framework HyMOR Combina MLLM e CLIP per il Riconoscimento di Oggetti a Multi-Granularità nei Giochi Educativi
Un nuovo framework ibrido chiamato HyMOR integra Modelli Linguistici Multimodali di Grande Dimensione (MLLM) con modelli di tipo CLIP per affrontare le limitazioni nel riconoscimento aperto di oggetti. Mentre gli MLLM gestiscono l'identificazione di categorie ampie, i modelli CLIP si specializzano nel riconoscimento fine di oggetti specifici di dominio come animali e piante. Questo approccio consente una comprensione accurata attraverso molteplici granularità semantiche, creando una solida base percettiva per applicazioni a valle. Il framework si rivolge specificamente alla generazione di contenuti multimodali e al gameplay interattivo in scenari educativi. Per supportare la valutazione in ambienti ricchi di contenuti, i ricercatori hanno introdotto TBO. Il lavoro affronta il divario tra le capacità aperte degli MLLM e i punti di forza di granularità fine dei modelli CLIP, proponendo una soluzione pratica per giochi educativi interattivi che richiedono sia il riconoscimento grossolano che fine degli oggetti.
Fatti principali
- HyMOR è un framework ibrido per il riconoscimento aperto di oggetti a multi-granularità
- Integra Modelli Linguistici Multimodali di Grande Dimensione (MLLM) con modelli di tipo CLIP
- Gli MLLM eseguono il riconoscimento aperto e grossolano degli oggetti
- I modelli CLIP si specializzano nell'identificazione fine di oggetti specifici di dominio
- Il framework si rivolge ad animali e piante tra altri oggetti specifici di dominio
- Consente una comprensione accurata degli oggetti attraverso molteplici granularità semantiche
- Funge da base percettiva per la generazione di contenuti multimodali e il gameplay interattivo
- Progettato per la valutazione in scenari ricchi di contenuti ed educativi
Entità
—