I LLM faticano con i risolutori combinatori: nuovo benchmark CP-SynC-XL

other · 2026-05-13

Un nuovo studio introduce CP-SynC-XL, un benchmark di 100 problemi combinatori con 4.577 istanze, che valuta come i Large Language Models (LLM) sintetizzano risolutori eseguibili. Vengono confrontati tre paradigmi: Python nativo, Python con API OR-Tools e MiniZinc con OR-Tools. I risultati mostrano che Python + OR-Tools raggiunge la massima correttezza, mentre MiniZinc + OR-Tools ha una copertura inferiore nonostante lo stesso back-end. Python nativo spesso restituisce soluzioni valide per schema ma non verificate. L'articolo evidenzia la trappola euristica di ottimizzare la ricerca a scapito della formalizzazione della rappresentazione del risolutore.

Fatti principali

Il benchmark CP-SynC-XL contiene 100 problemi combinatori e 4.577 istanze.
Sono stati testati tre paradigmi di costruzione del risolutore: Python nativo, Python + OR-Tools, MiniZinc + OR-Tools.
Python + OR-Tools raggiunge la massima correttezza tra i LLM.
MiniZinc + OR-Tools ha una copertura assoluta inferiore nonostante utilizzi lo stesso back-end OR-Tools.
Python nativo è il più propenso a restituire una soluzione valida per schema che fallisce la verifica.
Lo studio appare su arXiv con ID 2605.12421.
I LLM faticano con il ragionamento diretto per problemi combinatori complessi.
I sistemi neuro-simbolici utilizzano i LLM per sintetizzare risolutori eseguibili.

I LLM faticano con i risolutori combinatori: nuovo benchmark CP-SynC-XL

Fatti principali

Entità

Istituzioni

Fonti