Attribuzione dei Fallimenti Orientata alle Capacità per Agenti VLN
Una nuova strategia di test incentrata sulle capacità per agenti di Navigazione Visione-Linguaggio (VLN) consente l'identificazione e l'analisi dei fallimenti. Ciò è ottenuto attraverso una combinazione di creazione adattiva di casi di test tramite selezione di semi e mutazione, oracoli di capacità per rilevare errori specifici delle capacità, e un sistema di feedback che collega i fallimenti a capacità specifiche, facilitando l'ulteriore sviluppo dei test. I risultati sperimentali indicano che questo approccio scopre un numero maggiore di istanze di fallimento e identifica più precisamente le carenze a livello di capacità rispetto ai metodi di base più avanzati, offrendo spunti più chiari e attuabili per migliorare gli agenti incarnati in ambienti sensibili alla sicurezza.
Fatti principali
- 1. arXiv:2604.25161v1
- 2. Propone test orientati alle capacità per agenti VLN
- 3. Combina generazione adattiva di casi di test, oracoli di capacità e meccanismo di feedback
- 4. Supera le baseline allo stato dell'arte nel rilevamento e attribuzione dei fallimenti
- 5. Si concentra su applicazioni critiche per la sicurezza
- 6. Le capacità includono percezione, memoria, pianificazione, decisione
Entità
Istituzioni
- arXiv