HWE-Bench: Nuovo benchmark testa i LLM nella riparazione di bug hardware
Un team di ricercatori ha lanciato HWE-Bench, il primo benchmark esteso a livello di repository volto a valutare i modelli linguistici di grandi dimensioni (LLM) nel contesto di attività reali di riparazione di bug hardware. Il benchmark comprende 417 istanze di attività provenienti da effettive richieste pull di correzione di bug storici in sei importanti progetti open-source, tra cui core RISC-V, SoC e radici di fiducia per la sicurezza, utilizzando i linguaggi di descrizione hardware Verilog/SystemVerilog e Chisel. Ogni attività opera in un ambiente completamente containerizzato, richiedendo all'agente LLM di affrontare un vero report di bug, con accuratezza verificata tramite i processi di simulazione e regressione nativi del progetto. La creazione del benchmark ha coinvolto una pipeline in gran parte automatizzata che consente una facile espansione ad altri repository. Le valutazioni hanno incluso sette LLM in quattro configurazioni di agenti. Questa ricerca colma una lacuna significativa nei benchmark attuali, che spesso si concentrano su attività isolate a livello di componente, trascurando le valutazioni a scala di repository. Lo studio è disponibile su arXiv con identificatore 2604.14709.
Fatti principali
- HWE-Bench è il primo benchmark su larga scala a livello di repository per agenti LLM sulla riparazione di bug hardware.
- Contiene 417 istanze di attività da richieste pull di correzione di bug storici reali.
- Copre sei importanti progetti open-source, inclusi core RISC-V, SoC e radici di fiducia per la sicurezza.
- I progetti spaziano nei linguaggi di descrizione hardware Verilog/SystemVerilog e Chisel.
- Ogni attività è in un ambiente containerizzato con validazione tramite flussi di simulazione e regressione nativi.
- Costruito con una pipeline automatizzata per un'efficiente espansione a nuovi repository.
- Sette LLM sono stati valutati con quattro configurazioni di agenti.
- Affronta la mancanza di valutazione a scala di repository nei benchmark esistenti per la progettazione hardware.
Entità
Istituzioni
- arXiv