GeoFaith Framework Migliora il Ragionamento Fedele a Catena di Pensiero nei LLM
I ricercatori hanno introdotto GeoFaith, un framework spazio-temporale progettato per diagnosticare e imporre un ragionamento fedele nei grandi modelli linguistici (LLM). Il ragionamento a Catena di Pensiero (CoT) soffre spesso di razionalizzazione post-hoc, producendo catene di ragionamento plausibili ma infedeli a causa della supervisione basata sui risultati. GeoFaith sfrutta la struttura geometrica latente e le dinamiche entropiche per affrontare questo problema. Il team ha sviluppato un pipeline di bootstrap scalabile che espande le annotazioni a livello di passaggio da 1.000 a 20.000 campioni in quattro domini. Hanno addestrato un rilevatore di fedeltà da 8B che supera GPT-5 nei benchmark standard. Inoltre, hanno progettato un framework di apprendimento per rinforzo sensibile alla fedeltà che ottimizza congiuntamente la correttezza dei risultati, la fedeltà del processo e la coerenza della traiettoria. Gli esperimenti dimostrano prestazioni superiori sia nel rilevamento della fedeltà che nei compiti di ragionamento downstream, producendo catene di ragionamento più brevi e più fedeli.
Fatti principali
- GeoFaith è un framework spazio-temporale per il ragionamento CoT fedele.
- Utilizza la struttura geometrica latente e le dinamiche entropiche.
- Il pipeline di bootstrap espande le annotazioni da 1k a 20k campioni.
- Un rilevatore di fedeltà da 8B supera GPT-5.
- Il framework ottimizza congiuntamente correttezza, fedeltà e coerenza.
- Gli esperimenti mostrano prestazioni superiori nel rilevamento della fedeltà e nel ragionamento.
- Il metodo proposto produce catene di ragionamento più brevi.
- Affronta la razionalizzazione post-hoc nei LLM.
Entità
Istituzioni
- arXiv