面向AI应用分布式执行框架( 三 )


未来工作
考虑到工作负载的普遍性,特殊的优化是比较难的 。例如,必须在没有计算图的全部知识情况下采取调度决策 。Ray 的调度决策或许需要更复杂的设置 。除此之外,每个任务的存储谱系需要执行垃圾收集策略,以在 GCS 中限制存储成本,这是目前正在开发的功能 。
当 GCS 的消耗成为瓶颈时,可以通过增加更多的碎片来扩展全局调度器 。目前还需要手动设置 GCS 碎片和全局调度器的数量,未来将开发自适应算法来自动调整它们的数量 。考虑到 GCS 结构为该系统带来的优势,作者认为集中化控制状态是未来分布式系统的关键设计元素 。




推荐阅读