ARTFEED — Contemporary Art Intelligence

Phoenix-bench: Benchmarking dell'IA Agente per l'Ingegneria Hardware

other · 2026-05-18

Phoenix-bench è un benchmark innovativo progettato per valutare quanto bene i sistemi di IA agente, specificamente per l'ingegneria del software, possano affrontare compiti reali di ingegneria hardware. A differenza dei benchmark esistenti per LLM hardware che esaminano solo compiti isolati, Phoenix-bench richiede l'integrazione di vari elementi complessi come la navigazione nei repository e la verifica EDA (Electronic Design Automation). Include un set completo di 511 istanze Verilator verificate provenienti da 114 repository GitHub, insieme a patch degli sviluppatori e testbench. I ricercatori hanno testato quattro agenti commerciali e otto framework open-source su quattro backbone LLM, utilizzando metodi come la localizzazione oracle a livello di file e il feedback dai log dei testbench. Questo studio mira a scoprire se questi sistemi di IA possono gestire efficacemente sfide complesse di ingegneria hardware.

Fatti principali

  • 1. Phoenix-bench è un nuovo benchmark per l'IA agente nell'ingegneria hardware.
  • 2. Include 511 istanze Verilator verificate da 114 repository GitHub.
  • 3. Ogni istanza include patch dello sviluppatore, etichette del flusso di progettazione, testbench e ambiente EDA fissato con Docker.
  • 4. Valutati quattro agenti commerciali e otto strutture agente open-source su quattro backbone LLM.
  • 5. Sono stati testati due interventi diagnostici: localizzazione oracle a livello di file e un ciclo di feedback dai log dei testbench.
  • 6. I benchmark esistenti per LLM hardware isolano sotto-compiti ma mancano di requisiti congiunti.
  • 7. Il benchmark garantisce che le differenze nei tassi di risoluzione riflettano il comportamento dell'agente, non la disponibilità della toolchain.
  • 8. Lo studio è pubblicato su arXiv con identificatore 2605.15226.

Entità

Istituzioni

  • arXiv

Fonti