ARTFEED — Contemporary Art Intelligence

Coerenza tra le fasi nella VQA gerarchica per la guida autonoma

other · 2026-04-27

Questa ricerca approfondisce come avvenga il trasferimento di contesto tra le fasi per il Graph Visual Question Answering (GVQA) nel contesto delle auto a guida autonoma. Utilizza il dataset DriveLM-nuScenes ed esamina due metodi diversi. Il primo metodo è esplicito, applicando tre strategie basate su prompt su un VLM da 4B adattato al dominio chiamato Mini-InternVL2-4B-DA-DriveLM, che riduce notevolmente le contraddizioni NLI fino al 42,6% senza alcun addestramento aggiuntivo. Il secondo metodo è più implicito, utilizzando proiettori di contesto gated per estrarre vettori di stato nascosto e fondere proiezioni normalizzate negli embedding di input della fase successiva. Questi proiettori vengono addestrati con adattatori QLoRA specifici per fase su un VLM generale da 8B (InternVL3-8B-Instruct), modificando solo circa lo 0,3% dei parametri. Questo studio stabilisce solidi benchmark per la coerenza tra le fasi nella VQA gerarchica per la guida autonoma.

Fatti principali

  • Studio sul passaggio di contesto tra le fasi per GVQA nella guida autonoma
  • Utilizza il dataset DriveLM-nuScenes
  • La variante esplicita usa il condizionamento basato su prompt su Mini-InternVL2-4B-DA-DriveLM
  • Riduce la contraddizione NLI fino al 42,6% senza addestramento aggiuntivo
  • La variante implicita introduce proiettori di contesto gated
  • I proiettori iniettano proiezioni normalizzate e gated negli embedding di input della fase successiva
  • Addestrati congiuntamente con adattatori QLoRA su InternVL3-8B-Instruct
  • Aggiorna solo circa lo 0,3% dei parametri

Entità

Istituzioni

  • arXiv

Fonti