La riparazione guidata dal reasoner supera i suggerimenti correttivi per l'eccessiva cautela degli LLM sulle negazioni OWL~2~DL
Un nuovo studio su arXiv (2604.23398) evidenzia un errore ricorrente in GPT-5.4 relativo a query di conformità OWL~2~DL. Il modello risponde spesso "sconosciuto" quando la risposta corretta, secondo il reasoner, è "no", specialmente in situazioni che coinvolgono la chiusura FunctionalProperty o la disgiunzione di classi. I ricercatori hanno esaminato 180 query validate da un reasoner e 18 query create da contesti assicurativi e clinici, confrontando quattro strategie di interazione all'interno di un budget di query corrispondente: singolo tentativo, tre tentativi generici, tre round con un suggerimento del reasoner e tre round senza suggerimento. I risultati hanno mostrato un'accuratezza diretta del 43,9%, tentativi generici all'81,7%, strategia con suggerimento al 67,2% e approccio solo verdetto al 97,8%. Tutti i confronti sono risultati significativi, suggerendo che i suggerimenti potrebbero ridurre le prestazioni, mentre le riparazioni senza suggerimenti sono molto efficaci.
Fatti principali
- GPT-5.4 risponde spesso 'sconosciuto' su query di conformità OWL~2~DL dove la risposta implicata dal reasoner è 'no'.
- Il pattern di errore si verifica in caso di chiusura FunctionalProperty o disgiunzione di classi.
- 180 query verificate dal reasoner da espansione procedurale più 18 query tenute fuori scritte a mano nei domini assicurativo e clinico.
- Quattro modalità di interazione confrontate: singolo tentativo, tentativo generico, riparazione del verdetto con suggerimento OWA, riparazione del verdetto senza suggerimento.
- Fedeltà diretta: 43,9% (IC 36,8-51,2).
- Fedeltà del tentativo generico: 81,7% (IC 75,4-86,6).
- Fedeltà del verdetto con suggerimento: 67,2% (IC 60,1-73,7).
- Fedeltà del solo verdetto: 97,8% (IC 94,4-99,1).
- Tutti i confronti a coppie sono significativi.
- I suggerimenti correttivi possono peggiorare le prestazioni degli LLM sulle query OWL~2~DL.
Entità
Istituzioni
- arXiv