大规模分布式强化学习基础架构Menger, 大幅提高真实任务的学习效率关注并星标从此不迷路Jiangmen编译:T.R

关注并星标
从此不迷路
Jiangmen
文章插图
编译: T.R From: Google
强化学习算法在过去几年中取得了巨大的成就。目前先进的强化学习模型大多需要大量的计算，因此不仅需要增加在环境中探索收集样本的行为主体的数量，还需要能够在庞大的训练数据下进行高效迭代训练的能力。
为了解决这一问题，研究人员提出了名为Menger的大规模分布式强化学习架构，可以在多线程集群中大规模地实现数千个行为单元，并大幅度减小任务的训练时间。
文章插图
强化学习算法在过去几年中取得了巨大的成就，从芯片布局到资源配置，从围棋到Dota ，它一往无前地进步着。简单来讲，强化学习算法的开发过程可以视为数据收集和模型训练的循环过程，其中主体会在环境中探索并收集样本，而后这些数据被送入到学习器中进行训练并更新模型。
目前先进的强化学习模型大多需要在数百万个从环境中获取的样本上进行多次迭代训练循环才能够解决特定的目标任务 (例如Dota2的训练过程每两秒就能对200万帧进行学习) 。在如此大的计算需求下，强化学习不仅需要提高效率增加在环境中探索收集样本的行为主体的数量，同时还需要能够在如此庞大的训练数据下进行高效迭代训练的能力。
文章插图
强化学习系统的基本训练流程，行为主体首先将采集到的样本送到学习器，而后学习器利用这些样本对模型进行训练并将更新后的模型推送给行为主体。
【大规模分布式强化学习基础架构Menger, 大幅提高真实任务的学习效率】为了解决这一问题，研究人员提出了名为Menger的大规模分布式强化学习架构，可以在多线程集群 (Borg cells) 中大规模地实现数千个行为单元，并大幅度减小任务的训练时间。
这篇文章讲解了整个架构的实现原理，以及如何提高现芯片设计中芯片布局任务的训练效率。实验表明，这种方法得到的结果相较于原先的方法可以提升8.6x的训练效率。
注释：Brog系统是一套大规模的集群管理系统，可以在数千个机器组成的多个集群上实现对于不同应用和任务的有效管理。
Menger系统设计人们在分布式强化学习系统领域研发出了不同的系统，包括Acme和SEED RL等，但每种系统都针对分布式系统中的不同方面进行优化。
文章插图
文章插图
Acme和SEED系统
Acme在每个行动主体上使用了局部推理，并频繁地从学习器请求模型；SEED RL则使用了中心化的推理设计，利用一部分TPU核来进行批处理。
但在分布式强化学习系统的设计中必须要关注一下两个部分的权衡：一方面是行为器与学习器间的数据样本和模型传输的通信开销；另一方面是行为器本身 (CPUs) 的推理开销与加速器 (GPUs/TPUs) 间的比较。
在综合考虑目标任务对于观测数量、行为空间和模型大小的情况下， Menger选择了与Acme相似的局部推理方式，但却将行为器的规模进行了非常大的拓展！
在实现大规模与高速训练的过程中，主要存在以下两个挑战：
1. 为数量庞大的行为器提供模型请求服务会成为学习器的瓶颈所在，随着行为主体的增加收敛速度会越来越慢；
2. TPU的效率主要取决于输入流程的性能，当TPU计算核大幅度增加时输入流程的性能是决定整个训练效率的关键所在。

大规模分布式强化学习基础架构Menger, 大幅提高真实任务的学习效率

推荐阅读

翡翠|建盏的魅力

pb是什么化学元素？

#崤函四月风#谁更草根？，刘邦和朱元璋相比

做饭|心太大：做饭外出忘关火，差点全楼都遭殃！还好北京民警出手！

月球|玉兔二号在月球发现“神秘小屋”！网友：广寒宫自古以来实锤

钱江晚报|中秋月亮“瘦脸”了！今晚陪娃赏月，这些小窍门请收好

新鲜豆腐渣怎么做好吃

包拯一族传世35代，现在过得怎么样了？因千年家训不再从政

赛事圈|疆辽再次做出同步调整，下决心要和广东死磕总冠军，CBA重启在即

梦幻西游|梦幻西游：比鉴定出无级别还爽，神宠因一次打书全红，8万变18万

如果的拼音办法的拼音怎么写拼音

阿娇|素质何在？周扬青晒与阿娇合照，后者用脏鞋踩KTV白色沙发

时政|北京：小区、村入口不再要求进行体温检测

天气|预警！我省东南部有大到暴雨

午间时刻|谁听到宁静说了什么？一句话让她无言以对，伊能静夸赞黄圣依

杨迪妈妈评隐秘的角落怎么回事？杨迪妈妈评隐秘的角落说了什么

甲子光年|特朗普：给自己打10分，谷歌前CEO施密特痛批美国疫情表现

永彬永彬Ryan.B携手董又霖亮嗓《天赐的声音》，QQ音乐「S制造」助力音乐人破圈

锐龙9 5950X烤机全核频率最高！ROG CROSSHAIR VIII DARK HERO评测

suv销量排行榜 suv销量排行榜前十名