Nuovo Framework AI DAP Avanza la Dimostrazione Automatica di Teoremi in Modalità Difficile
I ricercatori hanno introdotto Discover And Prove (DAP), un framework agente che utilizza grandi modelli linguistici per il ragionamento in linguaggio naturale con esplicita autoriflessione per scoprire risposte prima di costruire dimostrazioni formali. Questo affronta ciò che gli autori definiscono "Modalità Difficile" - un'impostazione più rigorosa e realistica in cui i sistemi devono scoprire autonomamente le risposte anziché averle incorporate nelle affermazioni formali. Il framework riscrive le affermazioni della Modalità Difficile in quelle della "Modalità Facile" per i dimostratori automatici di teoremi esistenti. DAP stabilisce nuove prestazioni all'avanguardia: su CombiBench aumenta i problemi risolti da 7 a 10, e su PutnamBench diventa il primo sistema a ottenere successo. Per abilitare la ricerca in Modalità Difficile, il team ha rilasciato MiniF2F-Hard e FIMO-Hard - varianti in Modalità Difficile riannotate da esperti di due benchmark ATP ampiamente utilizzati. Il lavoro sostiene che la maggior parte dei benchmark ATP incorpora le risposte finali all'interno delle affermazioni formali, il che semplifica i compiti rispetto ai concorrenti umani e può portare a stime ottimistiche delle capacità del modello. La ricerca è stata annunciata su arXiv con identificatore 2604.15839v1.
Fatti principali
- Il framework DAP utilizza il ragionamento in linguaggio naturale dei LLM con esplicita autoriflessione
- Affronta la "Modalità Difficile" in cui i sistemi devono scoprire autonomamente le risposte
- Riscrive le affermazioni della Modalità Difficile in Modalità Facile per i dimostratori ATP esistenti
- Stabilisce lo stato dell'arte: aumenta i problemi risolti su CombiBench da 7 a 10
- Primo sistema a ottenere successo su PutnamBench
- I ricercatori hanno rilasciato le varianti benchmark MiniF2F-Hard e FIMO-Hard
- La maggior parte dei benchmark ATP incorpora le risposte nelle affermazioni ("Modalità Facile")
- Ricerca annunciata su arXiv con identificatore 2604.15839v1
Entità
Istituzioni
- arXiv