Risultati e Analisi della CODS 2025 AssetOpsBench Challenge
È stata condotta un'analisi sulla CODS 2025 AssetOpsBench Challenge, una competizione incentrata sull'orchestrazione multi-agente industriale all'interno del framework Codabench attento alla privacy basato su AssetOps. L'evento ha visto la registrazione di 149 team e un totale di 300 invii. Approfondimenti notevoli rivelano che la classifica pubblica di pianificazione ha raggiunto un massimo del 72,73%, con prompt migliorati che non sono riusciti a elevare questo punteggio. Inoltre, c'è stata una correlazione moderata tra i punteggi di valutazione pubblici e nascosti nella pianificazione (r=0,69), mentre i punteggi di esecuzione hanno mostrato una correlazione negativa (r=-0,13). Alcuni sistemi che hanno registrato il 45,45% nei punteggi pubblici di esecuzione sono riusciti a ottenere il 63,64% nella valutazione nascosta. L'analisi ha utilizzato fogli di classifica finali, log del server, esportazioni dei migliori invii, rapporti degli organizzatori e alberi sorgente verificati del tracciato di pianificazione.
Fatti principali
- La CODS 2025 AssetOpsBench Challenge è stata una competizione Codabench attenta alla privacy sull'orchestrazione multi-agente industriale basata su AssetOps.
- 149 team si sono registrati e sono stati effettuati 300 invii.
- La classifica pubblica di pianificazione ha saturato al 72,73%.
- Prompt più ricchi non hanno migliorato il punteggio massimo.
- I punteggi di valutazione nascosti hanno correlato moderatamente con quelli pubblici nella pianificazione (r=0,69).
- I punteggi di valutazione nascosti hanno correlato negativamente con quelli pubblici nell'esecuzione (r=-0,13).
- Diversi sistemi con punteggi pubblici di esecuzione del 45,45% hanno ottenuto il 63,64% nel set nascosto.
- L'analisi ha utilizzato fogli di classifica finali, log del server, esportazioni dei migliori invii, rapporti degli organizzatori e alberi sorgente verificati del tracciato di pianificazione.
Entità
Istituzioni
- Codabench