La riparazione guidata dal reasoner supera i suggerimenti correttivi per l'eccessiva cautela degli LLM sulle negazioni OWL~2~DL

ai-technology · 2026-04-29

Un nuovo studio su arXiv (2604.23398) evidenzia un errore ricorrente in GPT-5.4 relativo a query di conformità OWL~2~DL. Il modello risponde spesso "sconosciuto" quando la risposta corretta, secondo il reasoner, è "no", specialmente in situazioni che coinvolgono la chiusura FunctionalProperty o la disgiunzione di classi. I ricercatori hanno esaminato 180 query validate da un reasoner e 18 query create da contesti assicurativi e clinici, confrontando quattro strategie di interazione all'interno di un budget di query corrispondente: singolo tentativo, tre tentativi generici, tre round con un suggerimento del reasoner e tre round senza suggerimento. I risultati hanno mostrato un'accuratezza diretta del 43,9%, tentativi generici all'81,7%, strategia con suggerimento al 67,2% e approccio solo verdetto al 97,8%. Tutti i confronti sono risultati significativi, suggerendo che i suggerimenti potrebbero ridurre le prestazioni, mentre le riparazioni senza suggerimenti sono molto efficaci.

Fatti principali

GPT-5.4 risponde spesso 'sconosciuto' su query di conformità OWL~2~DL dove la risposta implicata dal reasoner è 'no'.
Il pattern di errore si verifica in caso di chiusura FunctionalProperty o disgiunzione di classi.
180 query verificate dal reasoner da espansione procedurale più 18 query tenute fuori scritte a mano nei domini assicurativo e clinico.
Quattro modalità di interazione confrontate: singolo tentativo, tentativo generico, riparazione del verdetto con suggerimento OWA, riparazione del verdetto senza suggerimento.
Fedeltà diretta: 43,9% (IC 36,8-51,2).
Fedeltà del tentativo generico: 81,7% (IC 75,4-86,6).
Fedeltà del verdetto con suggerimento: 67,2% (IC 60,1-73,7).
Fedeltà del solo verdetto: 97,8% (IC 94,4-99,1).
Tutti i confronti a coppie sono significativi.
I suggerimenti correttivi possono peggiorare le prestazioni degli LLM sulle query OWL~2~DL.

La riparazione guidata dal reasoner supera i suggerimenti correttivi per l'eccessiva cautela degli LLM sulle negazioni OWL~2~DL

Fatti principali

Entità

Istituzioni

Fonti