ARTFEED — Contemporary Art Intelligence

BLAST: Nuovo Benchmark Valuta gli LLM nella Generazione di Codice ASP

ai-technology · 2026-04-27

I ricercatori hanno introdotto BLAST, la prima metodologia di benchmarking e dataset dedicata per valutare l'accuratezza dei grandi modelli linguistici (LLM) nella generazione di codice Answer Set Programming (ASP). Il framework presenta due nuove metriche semantiche su misura per la generazione di codice ASP. Una valutazione empirica ha coinvolto dieci problemi ben noti relativi a grafi tratti dalla letteratura ASP e otto LLM all'avanguardia. Il lavoro colma una lacuna nella valutazione delle prestazioni degli LLM sui paradigmi di programmazione dichiarativa.

Fatti principali

  • BLAST è la prima metodologia di benchmarking per LLM sulla generazione di codice ASP.
  • Il dataset include dieci problemi relativi a grafi tratti dalla letteratura ASP.
  • Sono stati valutati otto LLM all'avanguardia.
  • Vengono introdotte due nuove metriche semantiche per il codice ASP.
  • Lo studio affronta le prestazioni degli LLM sui paradigmi di programmazione dichiarativa.

Entità

Fonti