SCICONVBENCH: Valutazione dei LLM nella chiarificazione multi-turn per la formulazione di compiti scientifici

ai-technology · 2026-05-20

Un nuovo benchmark, SCICONVBENCH, valuta la capacità dei grandi modelli linguistici di chiarire richieste scientifiche mal poste attraverso dialoghi multi-turn. A differenza dei benchmark esistenti che assumono problemi ben definiti, SCICONVBENCH testa la disambiguazione e il rilevamento di errori in meccanica dei fluidi, meccanica dei solidi, scienza dei materiali ed equazioni differenziali alle derivate parziali. Il benchmark si concentra su due capacità: ottenere informazioni mancanti e correggere richieste utente internamente contraddittorie.

Fatti principali

SCICONVBENCH è un benchmark per la chiarificazione multi-turn nella formulazione di compiti scientifici.
Copre quattro domini: meccanica dei fluidi, meccanica dei solidi, scienza dei materiali e PDE.
Il benchmark si concentra sulla disambiguazione e il rilevamento di errori.
I benchmark esistenti assumono problemi ben posti, mentre SCICONVBENCH affronta richieste utente mal poste.
Il benchmark è introdotto nell'articolo arXiv 2605.18630.

Entità

—

Fonti

arXiv cs.AI — 2026-05-19