Claw-Anything: Benchmark per Assistenti AI Sempre Attivi

ai-technology · 2026-05-26

Un nuovo benchmark chiamato Claw-Anything è stato sviluppato da ricercatori per valutare agenti basati su modelli linguistici di grandi dimensioni che funzionano come assistenti personali sempre attivi con ampio accesso all'ambiente digitale dell'utente. I benchmark esistenti affrontano solo aspetti limitati dei dati utente, il che limita il ragionamento sensibile al contesto. Claw-Anything migliora il contesto dell'agente in tre aree: registri di attività a lungo termine, servizi backend interconnessi e interazioni GUI e CLI senza soluzione di continuità su vari dispositivi. Per creare scenari realistici, il benchmark utilizza l'iniezione di eventi a più round per simulare mesi di attività dell'utente, incorporando eventi irrilevanti e informazioni contrastanti. Gli agenti devono ragionare in contesti complessi mantenendo la resilienza al rumore. Questa ricerca è documentata nel preprint arXiv 2605.26086.

Fatti principali

Claw-Anything è un nuovo benchmark per assistenti AI sempre attivi.
Espande il contesto dell'agente in tre dimensioni: storie di attività a lungo termine, servizi backend interdipendenti e interazione GUI/CLI integrata.
Il benchmark simula mesi di attività dell'utente tramite iniezione di eventi a più round.
Include rumore realistico come eventi irrilevanti e segnali contrastanti.
La ricerca è pubblicata su arXiv con ID 2605.26086.

Claw-Anything: Benchmark per Assistenti AI Sempre Attivi

Fatti principali

Entità

Istituzioni

Fonti