Claw-Anything: Benchmark per Assistenti AI Sempre Attivi
Un nuovo benchmark chiamato Claw-Anything è stato sviluppato da ricercatori per valutare agenti basati su modelli linguistici di grandi dimensioni che funzionano come assistenti personali sempre attivi con ampio accesso all'ambiente digitale dell'utente. I benchmark esistenti affrontano solo aspetti limitati dei dati utente, il che limita il ragionamento sensibile al contesto. Claw-Anything migliora il contesto dell'agente in tre aree: registri di attività a lungo termine, servizi backend interconnessi e interazioni GUI e CLI senza soluzione di continuità su vari dispositivi. Per creare scenari realistici, il benchmark utilizza l'iniezione di eventi a più round per simulare mesi di attività dell'utente, incorporando eventi irrilevanti e informazioni contrastanti. Gli agenti devono ragionare in contesti complessi mantenendo la resilienza al rumore. Questa ricerca è documentata nel preprint arXiv 2605.26086.
Fatti principali
- Claw-Anything è un nuovo benchmark per assistenti AI sempre attivi.
- Espande il contesto dell'agente in tre dimensioni: storie di attività a lungo termine, servizi backend interdipendenti e interazione GUI/CLI integrata.
- Il benchmark simula mesi di attività dell'utente tramite iniezione di eventi a più round.
- Include rumore realistico come eventi irrilevanti e segnali contrastanti.
- La ricerca è pubblicata su arXiv con ID 2605.26086.
Entità
Istituzioni
- arXiv