CoSearch: Un Framework che Addestra Congiuntamente Agenti di Ragionamento e Modelli di Ranking Documentale tramite Apprendimento per Rinforzo
Uno studio recente presenta CoSearch, un framework progettato per addestrare simultaneamente agenti di ragionamento multi-step insieme a modelli generativi di ranking documentale attraverso l'ottimizzazione relativa di politiche di gruppo (Group Relative Policy Optimization - GRPO). Questo metodo affronta le carenze degli attuali sistemi di ricerca agentica, come Search-R1, che considerano i sistemi di recupero come strumenti statici concentrandosi esclusivamente sull'ottimizzazione degli agenti di ragionamento. Test iniziali indicano che la disparità di prestazioni tra un sistema di recupero oracolo e uno statico può raggiungere un miglioramento relativo F1 fino al 26,8% su sette benchmark di risposta a domande, evidenziando i sistemi di recupero come un ostacolo significativo nel miglioramento delle capacità di ricerca agentica. La ricerca agentica implica l'addestramento di agenti a ragionare in modo iterativo, generare query e integrare informazioni recuperate per risolvere domande complesse, con l'apprendimento per rinforzo che facilita i recenti progressi. Il framework CoSearch consente un addestramento GRPO efficace per i sistemi di ranking con input che differiscono tra i percorsi di ragionamento, affrontando precedenti limitazioni in cui i componenti di recupero rimanevano invariati durante il processo di ottimizzazione.
Fatti principali
- CoSearch addestra congiuntamente agenti di ragionamento e modelli di ranking documentale
- Utilizza l'ottimizzazione relativa di politiche di gruppo (GRPO) per l'addestramento
- Affronta le limitazioni degli approcci esistenti come Search-R1
- I sistemi di recupero fissi creano colli di bottiglia nelle prestazioni della ricerca agentica
- Il divario tra recupero oracolo e recupero fisso raggiunge il 26,8% di miglioramento F1 su 7 benchmark QA
- La ricerca agentica implica ragionamento iterativo, interrogazione e sintesi delle informazioni
- L'apprendimento per rinforzo ha guidato i recenti progressi nella ricerca agentica
- Ricerca pubblicata su arXiv con identificatore 2604.17555v1
Entità
Istituzioni
- arXiv