D3-Gym: Un Benchmark per la Scoperta Scientifica Basata su Dati Verificabili
L'introduzione di un nuovo dataset, denominato D3-Gym, mira a colmare la mancanza di ambienti verificabili per compiti di scoperta scientifica basata su dati. D3-Gym è notevole per essere il primo dataset creato automaticamente, comprendente 565 compiti tratti da 239 repository scientifici autentici in quattro campi. Ogni compito presenta un'istruzione in linguaggio naturale, un ambiente eseguibile con le dipendenze necessarie, anteprime dei dataset di input e degli artefatti, una soluzione di codice di riferimento e uno script di valutazione generato automaticamente. Questi script di valutazione mostrano un impressionante accordo dell'87,5% con gli standard di riferimento annotati da umani, indicando una forte correlazione nella logica di valutazione specifica del dominio. Il dataset mira a migliorare i modelli linguistici e gli agenti coinvolti nella scoperta scientifica offrendo benchmark affidabili.
Fatti principali
- D3-Gym è il primo dataset costruito automaticamente con ambienti verificabili per la scoperta scientifica basata su dati.
- Il dataset comprende 565 compiti provenienti da 239 repository scientifici reali in quattro discipline.
- Ogni compito include un'istruzione in linguaggio naturale, un ambiente eseguibile, il dataset di input, anteprime degli artefatti, una soluzione di codice di riferimento e uno script di valutazione.
- Gli script di valutazione raggiungono un accordo dell'87,5% con gli standard di riferimento annotati da umani.
- Il dataset affronta l'assenza di ambienti verificabili per compiti scientifici.
- È progettato per far progredire i modelli linguistici e gli agenti nella scoperta basata su dati.
Entità
—