Metodologia Refute-or-Promote Potenzia la Scoperta di Difetti Assistita da LLM con un Tasso di Eliminazione dell'83%

ai-technology · 2026-04-22

Una nuova metodologia di revisione multi-agente avversaria chiamata Refute-or-Promote affronta i problemi di precisione nella scoperta di difetti assistita da LLM, dove troppi rapporti errati minano la credibilità. Il sistema impiega Stratified Context Hunting per la generazione di candidati insieme a mandati di eliminazione avversaria e asimmetria contestuale. I componenti Cross-Model Critic consentono una revisione cross-famiglia per identificare punti ciechi correlati che una revisione della stessa famiglia potrebbe trascurare. Durante una valutazione di 31 giorni su sette obiettivi, inclusi librerie di sicurezza e lo standard ISO C++, la pipeline ha eliminato circa il 79% di 171 candidati prima della divulgazione. In un sottoinsieme a protocollo consolidato incentrato su lcms2 e wolfSSL con 30 candidati, il tasso di eliminazione prospettico ha raggiunto l'83%. L'approccio ha prodotto quattro CVE, con tre divulgati pubblicamente e uno attualmente sotto embargo, oltre all'accettazione di LWG 4549. I revisori cold-start sono incorporati per minimizzare le cascate di ancoraggio durante il processo di revisione.

Fatti principali

La metodologia denominata Refute-or-Promote migliora la precisione nella scoperta di difetti assistita da LLM
Combina Stratified Context Hunting, mandati di eliminazione avversaria, asimmetria contestuale e Cross-Model Critic
Campagna di 31 giorni testata su 7 obiettivi inclusi librerie di sicurezza e standard ISO C++
La pipeline ha eliminato circa il 79% di 171 candidati prima della divulgazione
Sottoinsieme a protocollo consolidato (lcms2, wolfSSL; n=30) ha mostrato un tasso di eliminazione prospettico dell'83%
Ha prodotto 4 CVE (3 pubblici, 1 sotto embargo)
LWG 4549 è stato accettato
I revisori cold-start riducono le cascate di ancoraggio
La revisione cross-famiglia intercetta punti ciechi correlati

Entità

—

Fonti

arXiv cs.AI — 2026-04-22