Coerenza tra le fasi nella VQA gerarchica per la guida autonoma

other · 2026-04-27

Questa ricerca approfondisce come avvenga il trasferimento di contesto tra le fasi per il Graph Visual Question Answering (GVQA) nel contesto delle auto a guida autonoma. Utilizza il dataset DriveLM-nuScenes ed esamina due metodi diversi. Il primo metodo è esplicito, applicando tre strategie basate su prompt su un VLM da 4B adattato al dominio chiamato Mini-InternVL2-4B-DA-DriveLM, che riduce notevolmente le contraddizioni NLI fino al 42,6% senza alcun addestramento aggiuntivo. Il secondo metodo è più implicito, utilizzando proiettori di contesto gated per estrarre vettori di stato nascosto e fondere proiezioni normalizzate negli embedding di input della fase successiva. Questi proiettori vengono addestrati con adattatori QLoRA specifici per fase su un VLM generale da 8B (InternVL3-8B-Instruct), modificando solo circa lo 0,3% dei parametri. Questo studio stabilisce solidi benchmark per la coerenza tra le fasi nella VQA gerarchica per la guida autonoma.

Fatti principali

Studio sul passaggio di contesto tra le fasi per GVQA nella guida autonoma
Utilizza il dataset DriveLM-nuScenes
La variante esplicita usa il condizionamento basato su prompt su Mini-InternVL2-4B-DA-DriveLM
Riduce la contraddizione NLI fino al 42,6% senza addestramento aggiuntivo
La variante implicita introduce proiettori di contesto gated
I proiettori iniettano proiezioni normalizzate e gated negli embedding di input della fase successiva
Addestrati congiuntamente con adattatori QLoRA su InternVL3-8B-Instruct
Aggiorna solo circa lo 0,3% dei parametri

Coerenza tra le fasi nella VQA gerarchica per la guida autonoma

Fatti principali

Entità

Istituzioni

Fonti