LGMT: Test Metamorfico Basato sulla Logica per l'Affidabilità del Ragionamento degli LLM
I ricercatori hanno introdotto un nuovo framework chiamato LGMT (Logic-Grounded Metamorphic Testing) volto a valutare l'affidabilità del ragionamento dei Large Language Models (LLM). Questo framework, descritto in una pubblicazione su arXiv (2605.23965), impiega la logica del primo ordine (FOL) per generare relazioni metamorfiche derivate da equivalenze logiche formali, producendo casi di test semanticamente invarianti. A differenza dei benchmark statici convenzionali, LGMT identifica difetti di ragionamento tramite controlli di coerenza incrociata, eliminando la necessità di etichette di verità di base. I test su sei LLM leader hanno scoperto significativi difetti nascosti non rilevati dalle valutazioni basate su riferimenti. I risultati indicano che questi modelli sono particolarmente vulnerabili a variazioni a livello di simboli e conclusioni, con strategie di prompting avanzate come Few-shot CoT che alleviano solo parzialmente queste sfide.
Fatti principali
- LGMT sta per Logic-Grounded Metamorphic Testing.
- È un framework senza oracolo per valutare il ragionamento degli LLM.
- LGMT sfrutta la logica del primo ordine (FOL) per derivare relazioni metamorfiche.
- Costruisce casi di test semanticamente invarianti da equivalenze logiche.
- I difetti vengono rilevati tramite controllo di coerenza incrociata.
- Gli esperimenti sono stati condotti su sei LLM all'avanguardia.
- LGMT ha esposto difetti nascosti non rilevati dalle valutazioni tradizionali.
- I modelli sono sensibili a variazioni a livello di simboli e conclusioni.
Entità
Istituzioni
- arXiv