Framework Neuro-Simbolico Insegna ai Transformer a Cubare per SAT
I ricercatori hanno introdotto un innovativo sistema neuro-simbolico per il post-addestramento che consente ai modelli basati su transformer di apprendere strategie di cubatura per le sfide di Boolean Satisfiability (SAT), cosa precedentemente impossibile. Questo sistema presenta un processo di cura dei dati basato su MCTS che sfrutta strategie simboliche per prendere decisioni informate durante la valutazione delle formule delle competizioni SAT. Genera dati di preferenza basati su statistiche dei solver, arricchiti da approfondimenti di un modello insegnante. In un approccio di post-addestramento in due fasi—prima con fine-tuning supervisionato (SFT) e poi con ottimizzazione diretta delle preferenze (DPO)—un modello con 4 miliardi di parametri ha raggiunto un punteggio pass@5 di 53 su 100 benchmark SAT, superando modelli di alto livello come Claude-Sonnet-4, che ha ottenuto 50. Gli studi mostrano che SFT ha migliorato i punteggi da 46 a 51, mentre DPO ha aggiunto altri 2 benchmark.
Fatti principali
- Prima dimostrazione che i modelli basati su transformer possono apprendere euristiche di cubatura efficaci per SAT.
- Introdotto framework neuro-simbolico per post-addestramento.
- Pipeline di cura dei dati basata su MCTS che utilizza euristiche simboliche.
- Dati di preferenza basati su statistiche dei solver e arricchiti con tracce di ragionamento.
- Post-addestramento in due fasi: SFT seguito da DPO.
- Modello con 4 miliardi di parametri raggiunge pass@5 di 53 su 100 benchmark SAT.
- Supera Claude-Sonnet-4 (50) e eguaglia la migliore euristica simbolica (53).
- SFT da solo migliora pass@5 da 46 a 51; DPO aggiunge 2 benchmark.
Entità
—