Framework di Collaborazione Asincrona Uomo-AI per Ambienti HPC
Un innovativo framework di workflow facilita la collaborazione asincrona tra umani e AI in ambienti di calcolo ad alte prestazioni (HPC), affrontando il problema dell'interazione in tempo reale in situazioni ad alta intensità di risorse. Creato per applicazioni di difesa e sicurezza, questo framework consente ai workflow di mettersi in pausa in checkpoint designati per contributi umani, mentre i job di calcolo in corso continuano, evitando così l'inattività delle risorse. È compatibile con la schedulazione basata su SLURM, nonché con task containerizzati e nativi, funzionando senza soluzione di continuità su infrastrutture ibride, inclusi cluster HPC, sistemi locali e servizi cloud. Presentato su MareNostrum 5 per l'addestramento di modelli, il framework migliora la portabilità, l'efficienza e la supervisione nei workflow operativi dell'AI.
Fatti principali
- Il framework consente la collaborazione asincrona uomo-AI in ambienti HPC
- I workflow si fermano in checkpoint per input umano senza fermare i job di calcolo
- Supporta la schedulazione basata su SLURM, task containerizzati e nativi
- Opera su cluster HPC, macchine locali e piattaforme cloud
- Progettato per applicazioni AI ad alto rischio nel settore difesa e sicurezza
- Dimostrato su MareNostrum 5 per l'addestramento di modelli
- Previene l'inattività delle risorse e consente una supervisione non bloccante
- Migliora portabilità, efficienza e supervisione nei workflow operativi dell'AI
Entità
Istituzioni
- arXiv
- arXivLabs