I LLM faticano con i risolutori combinatori: nuovo benchmark CP-SynC-XL
Un nuovo studio introduce CP-SynC-XL, un benchmark di 100 problemi combinatori con 4.577 istanze, che valuta come i Large Language Models (LLM) sintetizzano risolutori eseguibili. Vengono confrontati tre paradigmi: Python nativo, Python con API OR-Tools e MiniZinc con OR-Tools. I risultati mostrano che Python + OR-Tools raggiunge la massima correttezza, mentre MiniZinc + OR-Tools ha una copertura inferiore nonostante lo stesso back-end. Python nativo spesso restituisce soluzioni valide per schema ma non verificate. L'articolo evidenzia la trappola euristica di ottimizzare la ricerca a scapito della formalizzazione della rappresentazione del risolutore.
Fatti principali
- Il benchmark CP-SynC-XL contiene 100 problemi combinatori e 4.577 istanze.
- Sono stati testati tre paradigmi di costruzione del risolutore: Python nativo, Python + OR-Tools, MiniZinc + OR-Tools.
- Python + OR-Tools raggiunge la massima correttezza tra i LLM.
- MiniZinc + OR-Tools ha una copertura assoluta inferiore nonostante utilizzi lo stesso back-end OR-Tools.
- Python nativo è il più propenso a restituire una soluzione valida per schema che fallisce la verifica.
- Lo studio appare su arXiv con ID 2605.12421.
- I LLM faticano con il ragionamento diretto per problemi combinatori complessi.
- I sistemi neuro-simbolici utilizzano i LLM per sintetizzare risolutori eseguibili.
Entità
Istituzioni
- arXiv