CCL-D: Sistema Diagnostico ad Alta Precisione per Anomalie di Rallentamento/Blocco nell'Addestramento di Modelli su Larga Scala
Un nuovo strumento diagnostico chiamato CCL-D affronta i problemi comuni di rallentamenti e blocchi nell'addestramento distribuito su larga scala, che sono spesso i più difficili e dispendiosi in termini di tempo da identificare. Gli approcci diagnostici convenzionali tendono a essere sia imprecisi che lenti, richiedendo talvolta ore o addirittura giorni per l'analisi delle cause profonde. CCL-D presenta una sonda in tempo reale a livello di rango accoppiata a un analizzatore decisionale intelligente. Questa sonda utilizza un framework di tracciamento distribuito leggero per valutare le metriche di anomalia cross-layer monitorando il traffico di comunicazione. L'analizzatore automatizza il rilevamento delle anomalie e individua il rango GPU difettoso. Il sistema è stato testato su una configurazione con quattro GPU, dimostrando la sua rapida capacità di rilevamento e localizzazione delle anomalie. I risultati sono stati pubblicati su arXiv con ID 2605.04478v1.
Fatti principali
- 1. CCL-D è un sistema diagnostico ad alta precisione per anomalie di rallentamento/blocco nell'addestramento distribuito su larga scala.
- 2. I metodi diagnostici tradizionali sono imprecisi e inefficienti, richiedendo ore o giorni per l'analisi delle cause profonde.
- 3. CCL-D integra una sonda in tempo reale a livello di rango con un analizzatore decisionale intelligente.
- 4. La sonda misura le metriche di anomalia cross-layer utilizzando un framework di tracciamento distribuito leggero.
- 5. L'analizzatore esegue il rilevamento automatico delle anomalie e la localizzazione delle cause profonde.
- 6. Il sistema identifica con precisione il rango GPU difettoso.
- 7. CCL-D è stato implementato su una configurazione a 4 GPU.
- 8. La ricerca è stata pubblicata su arXiv con ID 2605.04478v1.
Entità
Istituzioni
- arXiv