DeepVerifier: Agenti di Ricerca Profonda Auto-Evolventi tramite Verifica Guidata da Rubriche

ai-technology · 2026-04-30

Viene introdotto un nuovo approccio per gli Agenti di Ricerca Profonda (DRA), che enfatizza l'auto-evoluzione attraverso la verifica iterativa piuttosto che il semplice miglioramento delle politiche post-addestramento. Questo metodo, noto come scaling della verifica al momento dell'inferenza, consente a un agente di affinare le proprie prestazioni valutando i propri output rispetto a rubriche attentamente progettate. Tali rubriche derivano da una Tassonomia dei Fallimenti DRA generata automaticamente, che classifica i fallimenti degli agenti in cinque gruppi principali e tredici sottogruppi. Il sistema sviluppato, DeepVerifier, funge da verificatore di ricompense basato su rubriche che sfrutta l'asimmetria presente nella verifica. Nei test di meta-valutazione, DeepVerifier supera i benchmark tradizionali agente-come-giudice e LLM-giudice con margini compresi tra il 12% e il 48%.

Fatti principali

DeepVerifier utilizza la verifica delle ricompense basata su rubriche.
Le rubriche derivano da una Tassonomia dei Fallimenti DRA con 5 categorie principali e 13 sottocategorie.
Lo scaling della verifica al momento dell'inferenza consente l'auto-evoluzione.
DeepVerifier supera i baseline del 12%-48% nella meta-valutazione.
L'approccio è un'alternativa al miglioramento delle politiche post-addestramento.
L'agente si auto-migliora valutando le risposte generate.
La tassonomia è costruita automaticamente.
Il sistema sfrutta l'asimmetria della verifica.

DeepVerifier: Agenti di Ricerca Profonda Auto-Evolventi tramite Verifica Guidata da Rubriche

Fatti principali

Entità

Istituzioni

Fonti