PostEDA-Bench: Nuovo Benchmark per la Riparazione di Circuiti Basata su LLM

ai-technology · 2026-05-11

I ricercatori hanno introdotto PostEDA-Bench, un benchmark gerarchico per valutare agenti basati su LLM nell'ultimo miglio dell'automazione della progettazione elettronica (EDA), specificamente per riparare violazioni delle regole di progettazione (DRC) e ottimizzare gli obiettivi di potenza-prestazioni-area (PPA). Il benchmark comprende 145 attività in quattro categorie: DRC-Essential, DRC-Reasoning, PPA-Mono e PPA-Multi, ed è supportato da toolchain EDA con valutazione verificabile automaticamente. I test su otto LLM commerciali e open-source con diversi scaffold di agenti hanno rivelato che gli agenti si comportano ragionevolmente bene su attività sintetiche DRC-Essential e PPA-Mono a singolo obiettivo, ma incontrano difficoltà con attività più pratiche come DRC-Reasoning (miglior tasso di successo 36,66%) e PPA-Multi (miglior tasso di successo 20,00%). L'augmentazione visiva ha costantemente migliorato le prestazioni su DRC-Bench. Il lavoro evidenzia la necessità di un migliore ragionamento sui compromessi nell'ottimizzazione multi-obiettivo.

Fatti principali

PostEDA-Bench è un benchmark gerarchico per attività EDA dell'ultimo miglio basate su LLM.
Include 145 attività suddivise in DRC-Essential, DRC-Reasoning, PPA-Mono e PPA-Multi.
I benchmark EDA-LLM esistenti omettono la correzione DRC e si basano su gerarchie piatte.
Sono stati testati otto LLM commerciali e open-source con diversi scaffold di agenti.
Il miglior tasso di successo su DRC-Reasoning è del 36,66%.
Il miglior tasso di successo su PPA-Multi è del 20,00%.
L'augmentazione visiva migliora costantemente le prestazioni su DRC-Bench.
Il benchmark utilizza una valutazione verificabile automaticamente con toolchain EDA.

Entità

—

Fonti

arXiv cs.AI — 2026-05-11