ReFlect: Un sistema di controllo per il recupero degli errori di ragionamento nei LLM
Uno studio recente pubblicato su arXiv presenta ReFlect, un sistema di controllo volto a migliorare le capacità di ragionamento dei LLM per compiti complessi e multi-fase. I metodi esistenti, come chain-of-thought e ReAct, tendono ad accumulare errori senza rilevarli. Al contrario, ReFlect implementa un wrapper deterministico che incorpora meccanismi indipendenti di rilevamento e recupero degli errori. I test su sei domini di ragionamento hanno rivelato che l'autocritica a livello di prompt genera template strutturati, identificando con successo problemi in 90 su 100 blocchi di riflessione valutati. Inoltre, i LLM accettano erroneamente risposte errate in almeno il 76% dei casi. I tassi di successo di ReFlect variano dal 41% con GPT-4o-mini al 56% con Claude Sonnet 4.5 su sei diversi modelli.
Fatti principali
- ReFlect è un sistema di controllo per il ragionamento dei LLM.
- Crea logica indipendente di rilevamento e recupero degli errori.
- I paradigmi attuali falliscono in compiti a lungo termine e multi-fase.
- L'autocritica non ha segnalato problemi in 90 su 100 blocchi controllati.
- I LLM accettano erroneamente risposte sbagliate in almeno il 76% dei casi.
- ReFlect raggiunge il 41% di successo su GPT-4o-mini.
- ReFlect raggiunge il 56% di successo su Claude Sonnet 4.5.
- Gli esperimenti hanno coperto sei domini di ragionamento.
Entità
Istituzioni
- arXiv