Phoenix-bench: Benchmarking dell'IA Agente per l'Ingegneria Hardware
Phoenix-bench è un benchmark innovativo progettato per valutare quanto bene i sistemi di IA agente, specificamente per l'ingegneria del software, possano affrontare compiti reali di ingegneria hardware. A differenza dei benchmark esistenti per LLM hardware che esaminano solo compiti isolati, Phoenix-bench richiede l'integrazione di vari elementi complessi come la navigazione nei repository e la verifica EDA (Electronic Design Automation). Include un set completo di 511 istanze Verilator verificate provenienti da 114 repository GitHub, insieme a patch degli sviluppatori e testbench. I ricercatori hanno testato quattro agenti commerciali e otto framework open-source su quattro backbone LLM, utilizzando metodi come la localizzazione oracle a livello di file e il feedback dai log dei testbench. Questo studio mira a scoprire se questi sistemi di IA possono gestire efficacemente sfide complesse di ingegneria hardware.
Fatti principali
- 1. Phoenix-bench è un nuovo benchmark per l'IA agente nell'ingegneria hardware.
- 2. Include 511 istanze Verilator verificate da 114 repository GitHub.
- 3. Ogni istanza include patch dello sviluppatore, etichette del flusso di progettazione, testbench e ambiente EDA fissato con Docker.
- 4. Valutati quattro agenti commerciali e otto strutture agente open-source su quattro backbone LLM.
- 5. Sono stati testati due interventi diagnostici: localizzazione oracle a livello di file e un ciclo di feedback dai log dei testbench.
- 6. I benchmark esistenti per LLM hardware isolano sotto-compiti ma mancano di requisiti congiunti.
- 7. Il benchmark garantisce che le differenze nei tassi di risoluzione riflettano il comportamento dell'agente, non la disponibilità della toolchain.
- 8. Lo studio è pubblicato su arXiv con identificatore 2605.15226.
Entità
Istituzioni
- arXiv