|强化学习:10种真实的奖励与惩罚应用( 三 )
本文插图
游戏中的强化学习
让我们看一下游戏前沿中的一个应用程序 , 特别是AlphaGo Zero 。 通过强化学习 , AlphaGo Zero可以从零开始学习围棋游戏 。 它通过与自己对战来学习 。 经过40天的自我训练 , Alpha Go Zero战胜了击败世界排名第一的Ke Jie的Alpha Go大师版 。 它仅使用板上的黑白石头作为输入功能和单个神经网络 。 依靠单个神经网络的简单树搜索用于评估位置移动和样本移动 , 而无需使用任何Monte Carlo展开 。
实时出价-marketing营销和广告中的强化学习应用程序
在文章(链接:
https://arxiv.org/pdf/1802.09756.pdf?ref=hackernoon.com)中 , 作者提出了采用多主体强化学习的实时出价 。 使用聚类方法并为每个聚类分配一个战略投标代理来处理大量广告商 。 为了平衡广告商之间的竞争与合作之间的权衡 , 提出了分布式协调多代理竞标(DCMAB) 。
在营销中 , 准确定位个人的能力至关重要 。 这是因为正确的目标显然会带来高投资回报 。 文章(链接:http://taobao.com/?ref=hackernoon.com)基于中国最大的电子商务平台“淘宝网” 。 所提出的方法优于最新的单主体强化学习方法 。
本文插图
机器人操纵中的强化学习
深度学习和强化学习的使用可以训练具有抓握各种物体能力的机器人 , 甚至包括那些在训练中看不见的物体 。 例如 , 这可以用于装配线中的建筑产品 。
这是通过将大规模分布式优化与称为“ QT-Opt”的“深度Q学习”变体相结合来实现的 。 QT-Opt对连续动作空间的支持使其适用于机器人问题 。 首先对模型进行离线训练 , 然后在实际的机器人上进行部署和微调 。
Google AI将这种方法应用于机器人技术 , 从而使7个真实世界的机器人在4个月的时间内运行了800个小时 。
在此实验(链接:https://www.youtube.com/watch?v=W4joe3zzglU&ref=hackernoon.com)中 , QT-Opt方法成功地完成了700次针对以前看不见的物体的抓取尝试中的96%的抓取尝试 。 Google AI以前的方法成功率为78% 。
本文插图
总结
尽管强化学习仍然是一个非常活跃的研究领域 , 但是在推进该领域并将其应用于现实生活方面已经取得了重大进展 。
在本文中 , 我们几乎没有涉及到强化学习的应用领域 。 希望这激发了人们的好奇心 , 驱使您进一步深入该领域
原文链接:https://hackernoon.com/how-i-got-a-job-at-facebook-as-a-machine-learning-engineer-rk2u3way
本文由AI科技大本营翻译 , 转载请注明出处
本文插图
本文插图
【|强化学习:10种真实的奖励与惩罚应用】
推荐阅读
- 标杆学习|走进青岛海尔、红领(酷特智能)总部商务考察学习
- 标杆学习|走进北京小米新总部参观考察-对标小米互联网思维与生态链创新
- 标杆学习|走进北京京东总部商务考察学习精彩集锦
- 职场办公学习|每次进货价格不一样,Excel批量计算利润
- 云计算|ModelArts平台加持,华为云在机器学习领域领先
- 华为|Forrester发布机器学习报告,“点赞”华为云ModelArts平台
- 孩子|全方位陪伴孩子学习 大力智能家教灯T5 Pro体验
- 南方都市报|爱学习又完成近2亿美元融资,GIC领投,华平等原股东跟投
- 爱学习|互联网教育企业“爱学习教育集团”获近2亿美元D2轮融资
- 发布会|家居人视角:双11的Apple发布会,我们可以学习到什么