Apprendimento per Rinforzo Raggiunge il Posizionamento dei Chip a Livello Esperto tramite Apprendimento della Ricompensa
Un nuovo framework di apprendimento per rinforzo per il posizionamento dei chip raggiunge layout a livello esperto imparando da progetti esperti piuttosto che ottimizzare solo la lunghezza dei fili. I ricercatori hanno identificato la progettazione della ricompensa come il divario chiave tra RL e gli esperti umani. Il loro metodo inferisce traiettorie esperte passo-passo dai layout finali, utilizzandole come dimostrazioni per addestrare un modello di ricompensa che cattura ricompense implicite latenti. Gli esperimenti mostrano che il framework apprende efficientemente anche da un singolo progetto e generalizza bene a casi non visti. Il lavoro affronta un passaggio critico nella progettazione fisica, dove i metodi RL precedenti spesso non riuscivano a eguagliare la qualità esperta.
Fatti principali
- 1. Il posizionamento dei chip è un passaggio critico nella progettazione fisica.
- 2. I metodi basati su RL esistenti si concentrano sull'ottimizzazione della lunghezza dei fili e spesso non riescono a ottenere layout di qualità esperta.
- 3. La progettazione della ricompensa è identificata come la causa principale del divario di prestazioni con gli esperti.
- 4. Il nuovo approccio apprende direttamente dai layout esperti per derivare un modello di ricompensa.
- 5. Il metodo inferisce traiettorie esperte passo-passo dai layout finali degli esperti.
- 6. Le traiettorie sono utilizzate come dimostrazioni o preferenze per addestrare un modello che cattura ricompense implicite latenti.
- 7. Il framework può apprendere efficientemente anche da un singolo progetto.
- 8. Il framework generalizza bene a casi non visti.
Entità
Istituzioni
- arXiv