Nuovo Benchmark AI RT-QA Utilizza Codice Eseguibile per Risposte in Tempo Reale

ai-technology · 2026-04-22

I ricercatori hanno presentato RT-QA, un innovativo framework di valutazione progettato per misurare le capacità di risposta in tempo reale dei modelli di intelligenza artificiale, superando efficacemente le carenze dei tradizionali benchmark statici. Questo framework utilizza flussi di lavoro di codice eseguibile per raccogliere informazioni aggiornate tramite web crawling ed estrazione di risposte basata su DOM. Include un sistema di autoriparazione che si adatta alle modifiche nei layout delle pagine web, garantendo affidabilità a lungo termine. RT-QA copre 12 domini, come Finanza e Sport, comprendendo 320 domande in cinese suddivise in tre livelli di difficoltà. Il framework conduce valutazioni approfondite dei modelli all'avanguardia, generando autonomamente ground truth in tempo reale. Questo approccio mira a riflettere le dinamiche temporali e la natura in continua evoluzione della conoscenza del mondo reale, essenziale per agenti pratici integrati nella ricerca. I risultati dettagliati sono disponibili in una prestampa su arXiv (arXiv:2604.16349v1), annunciata come abstract di tipo incrociato.

Fatti principali

RT-QA è un framework di valutazione dinamica per risposte in tempo reale
Utilizza flussi di lavoro di codice eseguibile per recuperare risposte aggiornate al momento della valutazione
Il framework include un meccanismo di autoriparazione per adattarsi ai cambiamenti nella struttura delle pagine web
Copre 12 domini come Finanza e Sport
Ci sono 320 domande in cinese categorizzate in tre livelli di difficoltà
Vengono condotte valutazioni estese dei modelli all'avanguardia
La pipeline genera autonomamente codice per web crawling ed estrazione di risposte basata su DOM
Il lavoro è dettagliato in una prestampa su arXiv con codice arXiv:2604.16349v1

Nuovo Benchmark AI RT-QA Utilizza Codice Eseguibile per Risposte in Tempo Reale

Fatti principali

Entità

Istituzioni

Fonti