SCICONVBENCH: Valutazione dei LLM nella chiarificazione multi-turn per la formulazione di compiti scientifici
Un nuovo benchmark, SCICONVBENCH, valuta la capacità dei grandi modelli linguistici di chiarire richieste scientifiche mal poste attraverso dialoghi multi-turn. A differenza dei benchmark esistenti che assumono problemi ben definiti, SCICONVBENCH testa la disambiguazione e il rilevamento di errori in meccanica dei fluidi, meccanica dei solidi, scienza dei materiali ed equazioni differenziali alle derivate parziali. Il benchmark si concentra su due capacità: ottenere informazioni mancanti e correggere richieste utente internamente contraddittorie.
Fatti principali
- SCICONVBENCH è un benchmark per la chiarificazione multi-turn nella formulazione di compiti scientifici.
- Copre quattro domini: meccanica dei fluidi, meccanica dei solidi, scienza dei materiali e PDE.
- Il benchmark si concentra sulla disambiguazione e il rilevamento di errori.
- I benchmark esistenti assumono problemi ben posti, mentre SCICONVBENCH affronta richieste utente mal poste.
- Il benchmark è introdotto nell'articolo arXiv 2605.18630.
Entità
—