OThink-SRR1: Un Nuovo Framework per il Recupero e il Ragionamento nei LLM

ai-technology · 2026-04-24

Un nuovo framework chiamato OThink-SRR1 è stato introdotto dai ricercatori per migliorare i grandi modelli linguistici attraverso una metodologia iterativa di Ricerca-Raffinamento-Ragionamento, utilizzando l'apprendimento per rinforzo per l'addestramento. Questo framework affronta due problemi significativi nelle tecniche di recupero dinamico: la distrazione causata dal rumore irrilevante recuperato e gli elevati costi computazionali associati all'elaborazione di interi documenti. Durante la cruciale fase di Raffinamento, il framework condensa i documenti recuperati in fatti pertinenti e succinti prima del ragionamento. Il team presenta anche GRPO-IR, un algoritmo completo di apprendimento per rinforzo che incentiva la selezione accurata delle prove mentre scoraggia recuperi non necessari. I test su quattro benchmark di QA multi-hop hanno dimostrato progressi rispetto ai metodi attuali. La ricerca è disponibile su arXiv con l'identificatore 2604.19766.

Fatti principali

OThink-SRR1 è un framework per grandi modelli linguistici.
Utilizza un processo iterativo di Ricerca-Raffinamento-Ragionamento.
La fase di Raffinamento distilla i documenti recuperati in fatti concisi.
GRPO-IR è un algoritmo di apprendimento per rinforzo end-to-end.
GRPO-IR premia l'identificazione accurata delle prove e penalizza i recuperi eccessivi.
Gli esperimenti sono stati condotti su quattro benchmark di QA multi-hop.
L'articolo è su arXiv con ID 2604.19766.
Il framework affronta i problemi di rumore e costo computazionale.

OThink-SRR1: Un Nuovo Framework per il Recupero e il Ragionamento nei LLM

Fatti principali

Entità

Istituzioni

Fonti