QuanBench+ Benchmark Valuta i LLM su Tre Framework Quantistici

ai-technology · 2026-04-24

Un nuovo benchmark chiamato QuanBench+ è stato lanciato da ricercatori per valutare i modelli linguistici di grandi dimensioni (LLM) nel campo della generazione di codice quantistico, utilizzando tre framework: Qiskit, PennyLane e Cirq. Questo benchmark presenta 42 task allineati con algoritmi quantistici, decomposizione di porte e preparazione dello stato. I modelli vengono valutati tramite test funzionali eseguibili, che producono punteggi Pass@1 e Pass@5, utilizzando la divergenza KL per output probabilistici. La ricerca indaga anche i punteggi Pass@1 dopo che i modelli vengono riparati in base al feedback degli errori di runtime. I punteggi one-shot più alti ottenuti sono 59,5% per Qiskit, 54,8% per Cirq e 42,9% per PennyLane. Con correzioni basate sul feedback, questi punteggi migliorano rispettivamente all'83,3%, 76,2% e 66,7%, dimostrando progressi ma anche rivelando sfide persistenti nella generazione di codice quantistico multi-framework.

Fatti principali

QuanBench+ copre Qiskit, PennyLane e Cirq.
42 task allineati coprono algoritmi quantistici, decomposizione di porte e preparazione dello stato.
I modelli vengono valutati con test funzionali eseguibili.
Vengono riportati i punteggi Pass@1 e Pass@5.
Accettazione basata sulla divergenza KL per output probabilistici.
Studiata la riparazione basata sul feedback dopo errori di runtime o risposte errate.
Migliori punteggi one-shot: 59,5% Qiskit, 54,8% Cirq, 42,9% PennyLane.
Migliori punteggi con riparazione: 83,3% Qiskit, 76,2% Cirq, 66,7% PennyLane.

Entità

—

Fonti

arXiv cs.AI — 2026-04-23