SurgMLLM: Un Framework Unificato per la Comprensione di Scene Chirurgiche tramite MLLM
Un team di ricercatori ha introdotto SurgMLLM, un framework completo progettato per comprendere scene chirurgiche combinando ragionamento avanzato e grounding visivo fondamentale in un unico modello linguistico multimodale di grandi dimensioni (MLLM). Questo metodo potenzia un MLLM addestrandolo su video chirurgici per rappresentare simultaneamente fasi, triplette strumento-verbo-target (IVT) e token di segmentazione delle entità delle triplette, affrontando la natura frammentata delle tecniche attuali. I risultati sono disponibili in un preprint su arXiv (2605.13530).
Fatti principali
- SurgMLLM è un framework unificato per la comprensione di scene chirurgiche.
- Collega ragionamento di alto livello e grounding visivo di basso livello in un unico modello.
- Il modello mette a punto un modello linguistico multimodale di grandi dimensioni (MLLM) su video chirurgici.
- Modella congiuntamente fasi, triplette strumento-verbo-target (IVT) e token di segmentazione delle entità delle triplette.
- L'approccio affronta le limitazioni dei metodi isolati esistenti.
- La ricerca è pubblicata come preprint arXiv 2605.13530.
- Il lavoro si concentra sull'intervento assistito dal computer.
- Le applicazioni cliniche reali richiedono una comprensione olistica.
Entità
Istituzioni
- arXiv