RAMP: Un Nuovo Benchmark per la Valutazione di Agenti AI nell'Ingegneria del Software nel Mondo Reale

ai-technology · 2026-05-28

RAMP è stato presentato dai ricercatori come un framework orientato alla produzione progettato per valutare agenti di ingegneria del software a lungo orizzonte. Questo sistema si basa sulla piattaforma integrata YatCC, offrendo una struttura di valutazione runtime coesa attraverso interfacce di esecuzione e orchestrazione standardizzate. Incorpora carichi di lavoro realistici per la costruzione di compilatori che presentano dipendenze seriali e interazioni complesse con la toolchain, nonché un meccanismo di recupero a fasi. RAMP mira a superare le carenze degli attuali metodi di valutazione, che dipendono da benchmark statici, isolati e a breve termine che non rappresentano adeguatamente le complessità dinamiche dei flussi di lavoro produttivi reali. L'obiettivo è fornire un riflesso più accurato delle capacità pratiche in scenari runtime realistici, incluse lunghe catene di esecuzione e cicli di feedback iterativi.

Fatti principali

RAMP è un'infrastruttura orientata alla produzione per valutare agenti di ingegneria del software a lungo orizzonte.
Si basa sulla piattaforma integrata YatCC.
RAMP fornisce un'architettura di valutazione runtime unificata attraverso interfacce di orchestrazione ed esecuzione standardizzate.
Introduce carichi di lavoro realistici per la costruzione di compilatori con dipendenze seriali e interazioni complesse con la toolchain.
RAMP include un meccanismo di recupero a fasi.
Le metodologie di valutazione esistenti si basano su benchmark statici, isolati e a breve termine.
RAMP mira a catturare la complessità dinamica dei flussi di lavoro produttivi reali.
Il sistema valuta gli agenti in ambienti runtime realistici con lunghe catene di esecuzione, interazioni con strumenti, gestione delle dipendenze e cicli di feedback iterativi.

Entità

—

Fonti

arXiv cs.AI — 2026-05-28