Coerenza tra le fasi nella VQA gerarchica per la guida autonoma
Questa ricerca approfondisce come avvenga il trasferimento di contesto tra le fasi per il Graph Visual Question Answering (GVQA) nel contesto delle auto a guida autonoma. Utilizza il dataset DriveLM-nuScenes ed esamina due metodi diversi. Il primo metodo è esplicito, applicando tre strategie basate su prompt su un VLM da 4B adattato al dominio chiamato Mini-InternVL2-4B-DA-DriveLM, che riduce notevolmente le contraddizioni NLI fino al 42,6% senza alcun addestramento aggiuntivo. Il secondo metodo è più implicito, utilizzando proiettori di contesto gated per estrarre vettori di stato nascosto e fondere proiezioni normalizzate negli embedding di input della fase successiva. Questi proiettori vengono addestrati con adattatori QLoRA specifici per fase su un VLM generale da 8B (InternVL3-8B-Instruct), modificando solo circa lo 0,3% dei parametri. Questo studio stabilisce solidi benchmark per la coerenza tra le fasi nella VQA gerarchica per la guida autonoma.
Fatti principali
- Studio sul passaggio di contesto tra le fasi per GVQA nella guida autonoma
- Utilizza il dataset DriveLM-nuScenes
- La variante esplicita usa il condizionamento basato su prompt su Mini-InternVL2-4B-DA-DriveLM
- Riduce la contraddizione NLI fino al 42,6% senza addestramento aggiuntivo
- La variante implicita introduce proiettori di contesto gated
- I proiettori iniettano proiezioni normalizzate e gated negli embedding di input della fase successiva
- Addestrati congiuntamente con adattatori QLoRA su InternVL3-8B-Instruct
- Aggiorna solo circa lo 0,3% dei parametri
Entità
Istituzioni
- arXiv