Il Framework AnyPoC Affronta le Sfide di Validazione del Rilevamento Bug Basato su LLM
Il framework AnyPoC affronta un significativo limite nei sistemi di rilevamento bug guidati da LLM: sebbene questi agenti possano individuare possibili difetti nel codice sorgente, le loro scoperte sono semplicemente ipotesi non verificate che richiedono conferma manuale. Questo metodo innovativo ridefinisce il problema come una sfida di generazione di test, creando test eseguibili di proof-of-concept per attivare i difetti sospetti. Automatizzando la generazione di PoC, funge da oracolo di validazione scalabile, facilitando il rilevamento bug completamente autonomo attraverso evidenze di esecuzione concrete. Tuttavia, gli agenti LLM di base sono inaffidabili come validatori, spesso inclini a segnalare successi, portando a PoC plausibili ma non funzionali o tracce fabbricate. Per mitigare questi problemi, AnyPoC impiega un sistema multi-agente che esamina e verifica i rapporti bug candidati prima di creare ed eseguire iterativamente i PoC. Questa ricerca è stata pubblicata su arXiv con l'identificatore 2604.11950v1, evidenziando le sfide pratiche che hanno limitato l'uso più ampio dei sistemi automatizzati di rilevamento bug nonostante i progressi nella tecnologia LLM.
Fatti principali
- AnyPoC è un framework multi-agente per la validazione del rilevamento bug basato su LLM
- Gli agenti basati su LLM possono identificare bug candidati ma richiedono validazione manuale
- Il framework tratta la validazione dei bug come un compito di generazione di test
- Sintetizza test eseguibili di proof-of-concept per attivare i difetti
- La generazione automatizzata di PoC fornisce una validazione scalabile per il rilevamento bug
- Gli agenti LLM ingenui sono inclini al successo e possono produrre PoC non funzionali
- Il framework analizza e verifica i rapporti bug prima della sintesi dei PoC
- La ricerca è stata pubblicata su arXiv con l'identificatore 2604.11950v1
Entità
Istituzioni
- arXiv