DR-Venus: Agente di Ricerca Profonda 4B Addestrato su 10K Dati Aperti

ai-technology · 2026-04-24

I ricercatori presentano DR-Venus, un agente di ricerca profonda basato su un piccolo modello linguistico 4B all'avanguardia, progettato per il deployment su scala edge. Costruito interamente su dati aperti, raggiunge prestazioni elevate utilizzando solo 10K traiettorie. La ricetta di addestramento prevede due fasi: agentic supervised fine-tuning (SFT) con pulizia rigorosa dei dati e ricampionamento di traiettorie a lungo orizzonte, seguita da agentic reinforcement learning (RL) per migliorare l'affidabilità dell'esecuzione. L'efficacia del RL è potenziata basandosi su IGPO e progettando ricompense a livello di turno basate sul guadagno informativo. Il lavoro affronta i vantaggi in termini di costo, latenza e privacy degli agenti su scala edge.

Fatti principali

DR-Venus è un agente di ricerca profonda con 4 miliardi di parametri.
Addestrato su solo 10K traiettorie di dati aperti.
Progettato per il deployment su scala edge.
Addestramento in due fasi: SFT agentico poi RL agentico.
SFT include pulizia rigorosa dei dati e ricampionamento.
RL migliora l'affidabilità dell'esecuzione su compiti a lungo orizzonte.
RL utilizza IGPO e ricompense a livello di turno basate sul guadagno informativo.
Si concentra sui vantaggi di costo, latenza e privacy.

Entità

—

Fonti

arXiv cs.AI — 2026-04-23