SymbolBench: un benchmark per testare il ragionamento simbolico su serie temporali nei LLM
È stato lanciato un nuovo benchmark chiamato SymbolBench per valutare la capacità dei modelli linguistici di grandi dimensioni (LLM) di eseguire ragionamenti simbolici su dati di serie temporali reali. Comprende tre compiti distinti: scoperta causale, inferenza di reti booleane e regressione simbolica multivariata. A differenza delle iniziative precedenti, focalizzate solo su equazioni algebriche di base, SymbolBench incorpora una varietà di forme simboliche con diversi livelli di complessità. Inoltre, la ricerca introduce un quadro coeso che unisce LLM e programmazione genetica, creando un sistema a ciclo chiuso per il ragionamento simbolico. Questo studio affronta un problema fondamentale che risale alle scoperte di Keplero sul moto planetario: rivelare leggi simboliche nascoste dai dati di serie temporali. I risultati sono disponibili su arXiv con l'identificatore 2508.03963.
Fatti principali
- SymbolBench è un benchmark completo per il ragionamento simbolico su serie temporali reali.
- Il benchmark valuta tre compiti: regressione simbolica multivariata, inferenza di reti booleane e scoperta causale.
- SymbolBench copre diverse forme simboliche con complessità variabile, a differenza dei precedenti sforzi limitati.
- Un quadro unificato integra LLM e programmazione genetica per un ragionamento simbolico a ciclo chiuso.
- L'aspirazione di scoprire leggi simboliche dalle serie temporali risale alla scoperta del moto planetario da parte di Keplero.
- La ricerca è pubblicata su arXiv con l'identificatore 2508.03963.
- I LLM mostrano promesse in compiti di ragionamento strutturato, ma la loro capacità nel ragionamento simbolico su serie temporali è poco esplorata.
- Lo studio valuta sistematicamente la capacità dei LLM di inferire strutture simboliche interpretabili e allineate al contesto.
Entità
Istituzioni
- arXiv