I modelli visione-linguaggio automatizzano la generazione di diagrammi di incidenti per la sicurezza dei trasporti
Uno studio pubblicato su arXiv (2604.15332v1) dimostra come i modelli visione-linguaggio possano automatizzare la creazione di diagrammi di incidenti a partire dai rapporti di polizia, affrontando la natura dispendiosa in termini di tempo e variabile della preparazione manuale. Concentrandosi sulle rotonde multilane come caso di test complesso, i ricercatori hanno sviluppato un framework di prompt strutturato per guidare i modelli attraverso interpretazione, estrazione e sintesi visiva. Tre modelli—GPT-4o, Gemini-1.5-Flash e Janus-4o—sono stati valutati su 79 rapporti di incidente utilizzando un sistema a 10 metriche che valuta accuratezza semantica, fedeltà spaziale e chiarezza visiva. GPT-4o ha ottenuto il punteggio di prestazione media più alto di 6,29 su 10, seguito da Gemini-1.5-Flash a 5,28 e Janus-4o a 3,64. L'analisi ha evidenziato le capacità di ragionamento spaziale superiori di GPT-4o e la forte corrispondenza tra dati estratti e rappresentazioni visive. Questa ricerca esplora l'applicazione della tecnologia AI per migliorare l'analisi della sicurezza dei trasporti ottimizzando i processi di generazione dei diagrammi.
Fatti principali
- Studio pubblicato su arXiv con identificatore 2604.15332v1
- Si concentra sull'automazione della generazione di diagrammi di incidenti dai rapporti di polizia
- Utilizza le rotonde multilane come caso di test impegnativo
- Sviluppato framework di prompt strutturato in tre parti per il ragionamento del modello
- Creato sistema di valutazione a 10 metriche per la qualità dei diagrammi
- Testati tre modelli: GPT-4o, Gemini-1.5-Flash e Janus-4o
- Valutato su 79 rapporti di incidente
- GPT-4o ha ottenuto il punteggio di prestazione media più alto di 6,29/10
Entità
Istituzioni
- arXiv