Il Framework HyMOR Combina MLLM e CLIP per il Riconoscimento di Oggetti a Multi-Granularità nei Giochi Educativi

ai-technology · 2026-04-22

Un nuovo framework ibrido chiamato HyMOR integra Modelli Linguistici Multimodali di Grande Dimensione (MLLM) con modelli di tipo CLIP per affrontare le limitazioni nel riconoscimento aperto di oggetti. Mentre gli MLLM gestiscono l'identificazione di categorie ampie, i modelli CLIP si specializzano nel riconoscimento fine di oggetti specifici di dominio come animali e piante. Questo approccio consente una comprensione accurata attraverso molteplici granularità semantiche, creando una solida base percettiva per applicazioni a valle. Il framework si rivolge specificamente alla generazione di contenuti multimodali e al gameplay interattivo in scenari educativi. Per supportare la valutazione in ambienti ricchi di contenuti, i ricercatori hanno introdotto TBO. Il lavoro affronta il divario tra le capacità aperte degli MLLM e i punti di forza di granularità fine dei modelli CLIP, proponendo una soluzione pratica per giochi educativi interattivi che richiedono sia il riconoscimento grossolano che fine degli oggetti.

Fatti principali

HyMOR è un framework ibrido per il riconoscimento aperto di oggetti a multi-granularità
Integra Modelli Linguistici Multimodali di Grande Dimensione (MLLM) con modelli di tipo CLIP
Gli MLLM eseguono il riconoscimento aperto e grossolano degli oggetti
I modelli CLIP si specializzano nell'identificazione fine di oggetti specifici di dominio
Il framework si rivolge ad animali e piante tra altri oggetti specifici di dominio
Consente una comprensione accurata degli oggetti attraverso molteplici granularità semantiche
Funge da base percettiva per la generazione di contenuti multimodali e il gameplay interattivo
Progettato per la valutazione in scenari ricchi di contenuti ed educativi

Entità

—

Fonti

arXiv cs.AI — 2026-04-21