Il framework JUDO migliora il QA anomalo industriale con conoscenza di dominio
I ricercatori hanno introdotto JUDO (Juxtaposed Domain-Oriented Multimodal Reasoner), un framework progettato per migliorare i grandi modelli multimodali (LMM) per il rilevamento di anomalie industriali e il question answering. JUDO affronta la mancanza di conoscenza specifica del dominio nei LMM incorporando ragionamento visivo e testuale. Segmenta le regioni difettose attraverso il confronto visivo tra immagini di query e normali, e utilizza il fine-tuning supervisionato (SFT) e l'apprendimento per rinforzo (GRPO) per migliorare la comprensione del dominio. Il framework mira a generare risposte più accurate in scenari industriali complessi.
Fatti principali
- JUDO è un framework per il QA anomalo industriale.
- Integra conoscenza di dominio nei LMM.
- Il ragionamento visivo giustappone immagini di query e normali.
- Il fine-tuning supervisionato (SFT) migliora la comprensione del contesto.
- L'apprendimento per rinforzo (GRPO) guida il ragionamento di dominio.
- Il lavoro è pubblicato su arXiv (2605.20284).
- I LMM attualmente mancano di conoscenza specifica del dominio.
Entità
Istituzioni
- arXiv