ARTFEED — Contemporary Art Intelligence

Nuovo Benchmark AI RT-QA Utilizza Codice Eseguibile per Risposte in Tempo Reale

ai-technology · 2026-04-22

I ricercatori hanno presentato RT-QA, un innovativo framework di valutazione progettato per misurare le capacità di risposta in tempo reale dei modelli di intelligenza artificiale, superando efficacemente le carenze dei tradizionali benchmark statici. Questo framework utilizza flussi di lavoro di codice eseguibile per raccogliere informazioni aggiornate tramite web crawling ed estrazione di risposte basata su DOM. Include un sistema di autoriparazione che si adatta alle modifiche nei layout delle pagine web, garantendo affidabilità a lungo termine. RT-QA copre 12 domini, come Finanza e Sport, comprendendo 320 domande in cinese suddivise in tre livelli di difficoltà. Il framework conduce valutazioni approfondite dei modelli all'avanguardia, generando autonomamente ground truth in tempo reale. Questo approccio mira a riflettere le dinamiche temporali e la natura in continua evoluzione della conoscenza del mondo reale, essenziale per agenti pratici integrati nella ricerca. I risultati dettagliati sono disponibili in una prestampa su arXiv (arXiv:2604.16349v1), annunciata come abstract di tipo incrociato.

Fatti principali

  • RT-QA è un framework di valutazione dinamica per risposte in tempo reale
  • Utilizza flussi di lavoro di codice eseguibile per recuperare risposte aggiornate al momento della valutazione
  • Il framework include un meccanismo di autoriparazione per adattarsi ai cambiamenti nella struttura delle pagine web
  • Copre 12 domini come Finanza e Sport
  • Ci sono 320 domande in cinese categorizzate in tre livelli di difficoltà
  • Vengono condotte valutazioni estese dei modelli all'avanguardia
  • La pipeline genera autonomamente codice per web crawling ed estrazione di risposte basata su DOM
  • Il lavoro è dettagliato in una prestampa su arXiv con codice arXiv:2604.16349v1

Entità

Istituzioni

  • arXiv

Fonti