ARTFEED — Contemporary Art Intelligence

VibeSearchBench: Nuovo Benchmark per Agenti di Ricerca Proattivi

ai-technology · 2026-05-28

Un nuovo benchmark chiamato VibeSearchBench è stato sviluppato da ricercatori per valutare agenti basati su LLM che eseguono compiti di ricerca proattiva a lungo termine in ambienti pratici. Questo benchmark mira a colmare il divario tra valutazione ed esperienza utente, poiché gli agenti possono ottenere buoni risultati nei benchmark tradizionali ma fornire risultati insoddisfacenti per gli utenti. VibeSearchBench presenta 200 compiti bilingue (cinese e inglese) in 20 diversi domini, suddivisi in sottoinsiemi VibeSearch-Pro (professionale) e VibeSearch-Daily (vita quotidiana). Ogni compito combina un profilo utente con un grafo di conoscenza ground-truth senza schema, valutato utilizzando un simulatore utente a divulgazione progressiva e un framework di valutazione basato sul matching di grafi. Lo studio testa sette modelli leader all'interno del framework ReAct insieme all'agente OpenClaw.

Fatti principali

  • VibeSearchBench è un benchmark per la ricerca proattiva a lungo termine.
  • Consiste in 200 compiti bilingue in 20 domini.
  • I compiti sono suddivisi in sottoinsiemi professionali e di vita quotidiana.
  • La valutazione utilizza un simulatore utente a divulgazione progressiva e il matching di grafi.
  • Sette modelli all'avanguardia sono valutati con ReAct e OpenClaw.
  • Il benchmark affronta il divario valutazione-esperienza negli agenti di ricerca.
  • I benchmark esistenti si basano su query troppo specifiche e interazioni a turno singolo.
  • VibeSearchBench utilizza dialoghi multi-turno per affinare intenzioni vaghe.

Entità

Istituzioni

  • arXiv

Fonti