咋看uber开源的基于mpi的分布式tensorflow训练框架horovod? 我认为horovo

我认为horovod主要解决的问题在于：在处理的数据较多时，分布式的tensorflow虽然是scalable，但当GPU超过50个时，硬件的利用率明显下降，计算活处理能力与硬件规模不再呈线性关系。

而此前Facebook有一篇名为《Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour 》的paper提出了一种在不同节点间进行梯度平均的数据并行训练方式，充分发挥了硬件的计算能力。

标准的分布式tensorflow即可实现文中的思想，然而使用worker计算梯度，用ps平均梯度与更新参数。这样很容易产生因ps与worker分配不合理所导致的计算或通信瓶颈。后来百度发表了《Bringing HPC Techniques to Deep Learning》，提出了ring-allreduce方法，对计算网络做了优化，数据的分布式处理获得了很好的scaling。

而Horovod正式基于MPI实现了ring-allreduce，并且相对于标准分布式tensorflow在模型的代码实现上也提升了用户体验。在GPU较多时，算力的发挥提升了近一倍。

■网友
Deep Learning training说白了是浮点数运算，非常适合以MPI为核心的并行计算。
之前Google，百度，以及Facebook那篇ImageNet in one hour也用的是MPI。
【咋看uber开源的基于mpi的分布式tensorflow训练框架horovod?】 以Spark为核心的编程模型比较适合于数据中心处理streaming之类的操作，一般在计算类应用中要比MPI慢的多。

■网友
不就是千千万万TensorFlow衍生物中的一个...

咋看uber开源的基于mpi的分布式tensorflow训练框架horovod?

推荐阅读

军事|我第23批赴刚果（金）维和部队第一梯队启程回国

喝酒前喝酸奶还是牛奶？

周到|榜首大战上港目标三分不变

百合医生讲糖血糖高不高，低头看看脚，若没有这4种表现，你就偷着乐吧

消费者起诉“三只松鼠”：广告宣传语涉嫌虚假宣传

上海宝山|上海家庭教育示范校评估结果公示宝山有12所

全世界最贵的地价在哪里世界上最好的地图

环球网@轻症患者在家隔离，西班牙医院饱和

查同住人信息记录酒店同住人也会查到吗

第一财经|美征收关税增加电动车供应链成本特斯拉盈利能力堪忧|科技心语

时光Ttttime|苏提达好心机！拍摄王室官方照做史努比美甲，一举三得讨好泰王

『利息』彩票中奖1000万，这样存进银行，每月利息超过一年人均可支配收入

『31省份新增27例』31省份新增27例 22例为本土病例

吃酵母粉上火吗？酵母粉的营养价值有哪些?

虎扑足球|可能去热刺或者米兰，踢球者：德国国脚科赫拒绝本菲卡

世界遗产在中国|《世界遗产在中国》摄影展在东京开幕

普通男士照片大全,普通男生照片大全图片-

金宝哥讲故事|回到蜀国东山再起，刘备最后能否一统天下？，关羽若逃过吕蒙追杀

夏季北京旅游怎么安排？

美丽萍说|美女街拍：黑色连衣裙搭配圆筒状手提包，款式新颖，潮流时尚