Disallineamento dell'orologio causa fallimenti di osservabilità nell'inferenza AI distribuita
Una recente indagine pubblicata su arXiv (2604.21361) indica che le discrepanze nella sincronizzazione degli orologi tra i nodi nei sistemi di inferenza AI distribuita possono portare a un'osservabilità errata, anche mentre il sistema funziona correttamente. I ricercatori hanno implementato un disallineamento controllato dell'orologio in una fase di una pipeline multi-nodo che utilizza trasporti Kafka e ZeroMQ. Non hanno riscontrato violazioni di causalità in condizioni sincronizzate o con disallineamenti fino a 3 ms, ma violazioni significative si sono verificate a 5 ms. La produttività complessiva del sistema e l'accuratezza dell'output sono rimaste in gran parte intatte. Per durate estese, i tassi di span negativi si sono stabilizzati o diminuiti, suggerendo che il disallineamento effettivo si sviluppa a causa della deriva relativa dell'orologio. Questi risultati sottolineano un significativo divario tra le prestazioni del sistema e l'accuratezza dell'osservabilità.
Fatti principali
- Articolo arXiv 2604.21361
- Le pipeline di inferenza AI distribuita si basano sull'osservabilità basata su timestamp
- Un piccolo disallineamento dell'orologio può causare un'osservabilità causalmente errata
- Esperimenti su pipeline multi-nodo con Kafka e ZeroMQ
- Nessuna violazione in condizioni sincronizzate o con disallineamento fino a 3 ms
- Chiare violazioni di causalità con disallineamento di 5 ms
- Produttività e correttezza del sistema non influenzate
- I tassi di span negativi possono stabilizzarsi o diminuire nel tempo
Entità
Istituzioni
- arXiv