DeepVerifier: Agenti di Ricerca Profonda Auto-Evolventi tramite Verifica Guidata da Rubriche
Viene introdotto un nuovo approccio per gli Agenti di Ricerca Profonda (DRA), che enfatizza l'auto-evoluzione attraverso la verifica iterativa piuttosto che il semplice miglioramento delle politiche post-addestramento. Questo metodo, noto come scaling della verifica al momento dell'inferenza, consente a un agente di affinare le proprie prestazioni valutando i propri output rispetto a rubriche attentamente progettate. Tali rubriche derivano da una Tassonomia dei Fallimenti DRA generata automaticamente, che classifica i fallimenti degli agenti in cinque gruppi principali e tredici sottogruppi. Il sistema sviluppato, DeepVerifier, funge da verificatore di ricompense basato su rubriche che sfrutta l'asimmetria presente nella verifica. Nei test di meta-valutazione, DeepVerifier supera i benchmark tradizionali agente-come-giudice e LLM-giudice con margini compresi tra il 12% e il 48%.
Fatti principali
- DeepVerifier utilizza la verifica delle ricompense basata su rubriche.
- Le rubriche derivano da una Tassonomia dei Fallimenti DRA con 5 categorie principali e 13 sottocategorie.
- Lo scaling della verifica al momento dell'inferenza consente l'auto-evoluzione.
- DeepVerifier supera i baseline del 12%-48% nella meta-valutazione.
- L'approccio è un'alternativa al miglioramento delle politiche post-addestramento.
- L'agente si auto-migliora valutando le risposte generate.
- La tassonomia è costruita automaticamente.
- Il sistema sfrutta l'asimmetria della verifica.
Entità
Istituzioni
- arXiv