PLaMo 2.1-VL: Modello Vision-Language rilasciato per dispositivi autonomi in lingua giapponese
È stato introdotto un modello Vision Language leggero chiamato PLaMo 2.1-VL per dispositivi autonomi, disponibile nelle varianti da 8B e 2B ottimizzate per il deployment locale e periferico con funzionamento in lingua giapponese. Le capacità principali del modello si concentrano sul Visual Question Answering e sul Visual Grounding, con lo sviluppo mirato a due applicazioni reali: l'analisi dei compiti in fabbrica attraverso il riconoscimento degli strumenti e il rilevamento delle anomalie nelle infrastrutture. Le valutazioni delle prestazioni mostrano che il modello raggiunge 61,5 ROUGE-L sul benchmark JA-VG-VQA-500 e un'accuratezza dell'85,2% sul Japanese Ref-L4. Per le applicazioni pratiche, raggiunge un'accuratezza zero-shot del 53,9% nell'analisi dei compiti in fabbrica, mentre il fine-tuning sui dati degli impianti energetici migliora le prestazioni di rilevamento delle anomalie da 39,7 a 64,9 F1-score. Lo sviluppo ha incluso la creazione di una pipeline di generazione di dati sintetici su larga scala insieme a risorse complete di addestramento e valutazione in giapponese. I dettagli tecnici sono stati pubblicati in un report disponibile su arXiv, con il modello che supera i modelli open comparabili sia sui benchmark giapponesi che su quelli inglesi.
Fatti principali
- PLaMo 2.1-VL è un modello Vision Language leggero per dispositivi autonomi
- Disponibile nelle varianti da 8B e 2B progettate per il deployment locale e periferico
- Opera con capacità in lingua giapponese
- Le capacità principali includono Visual Question Answering e Visual Grounding
- Mira all'analisi dei compiti in fabbrica tramite riconoscimento degli strumenti e al rilevamento delle anomalie nelle infrastrutture
- Raggiunge 61,5 ROUGE-L sul benchmark JA-VG-VQA-500
- Ottiene un'accuratezza dell'85,2% sul Japanese Ref-L4
- Il fine-tuning sui dati degli impianti energetici migliora l'F1-score del rilevamento delle anomalie da 39,7 a 64,9
Entità
Istituzioni
- arXiv