OThink-SRR1: Un Nuovo Framework per il Recupero e il Ragionamento nei LLM
Un nuovo framework chiamato OThink-SRR1 è stato introdotto dai ricercatori per migliorare i grandi modelli linguistici attraverso una metodologia iterativa di Ricerca-Raffinamento-Ragionamento, utilizzando l'apprendimento per rinforzo per l'addestramento. Questo framework affronta due problemi significativi nelle tecniche di recupero dinamico: la distrazione causata dal rumore irrilevante recuperato e gli elevati costi computazionali associati all'elaborazione di interi documenti. Durante la cruciale fase di Raffinamento, il framework condensa i documenti recuperati in fatti pertinenti e succinti prima del ragionamento. Il team presenta anche GRPO-IR, un algoritmo completo di apprendimento per rinforzo che incentiva la selezione accurata delle prove mentre scoraggia recuperi non necessari. I test su quattro benchmark di QA multi-hop hanno dimostrato progressi rispetto ai metodi attuali. La ricerca è disponibile su arXiv con l'identificatore 2604.19766.
Fatti principali
- OThink-SRR1 è un framework per grandi modelli linguistici.
- Utilizza un processo iterativo di Ricerca-Raffinamento-Ragionamento.
- La fase di Raffinamento distilla i documenti recuperati in fatti concisi.
- GRPO-IR è un algoritmo di apprendimento per rinforzo end-to-end.
- GRPO-IR premia l'identificazione accurata delle prove e penalizza i recuperi eccessivi.
- Gli esperimenti sono stati condotti su quattro benchmark di QA multi-hop.
- L'articolo è su arXiv con ID 2604.19766.
- Il framework affronta i problemi di rumore e costo computazionale.
Entità
Istituzioni
- arXiv