|强化学习:10种真实的奖励与惩罚应用


|强化学习:10种真实的奖励与惩罚应用
本文插图
|强化学习:10种真实的奖励与惩罚应用
本文插图

作者 | Patrycja
翻译 | Katie , 责编 | 晋兆雨
出品 | AI科技大本营
头图 | 付费下载于视觉中国
在强化学习(Reinforcement Learning)中 , 对代理进行奖励和惩罚机制的培训 。 代理的正确行为会得到奖励 , 而错误的行为会受到惩罚 。 在这样做时 , 代理试图将错误降到最低并将正确率提高 。
在本文中 , 我们将研究强化学习的一些实际应用 。
|强化学习:10种真实的奖励与惩罚应用
本文插图

在自动驾驶汽车中的应用
各种论文都提出了“深度强化学习用于自动驾驶” 。 在自动驾驶汽车中 , 要考虑很多方面 , 例如在各个地方的速度限制 , 可驾驶区域 , 避免碰撞 。 下面仅举几例 。
可以应用强化学习的一些自动驾驶任务包括轨迹优化 , 运动计划 , 动态路径 , 控制器优化以及基于场景的高速公路学习策略 。
例如 , 可以通过学习自动停车策略来实现停车 。 可以使用Q-Learning来实现车道变更 , 同时可以通过学习超车策略来实现超车 , 同时避免碰撞并保持稳定的速度 。
AWS DeepRacer是一款自动驾驶赛车 , 旨在在物理轨道上测试强化学习 。 它使用摄像头将跑道可视化 , 并使用强化学习模型来控制油门和方向 。
Wayve.ai已成功地将强化学习应用于汽车的日常驾驶培训 。 他们使用深度强化学习算法来解决车道跟踪任务 。 他们的网络架构是具有4个卷积层和3个完全连接层的深度网络 。
|强化学习:10种真实的奖励与惩罚应用
本文插图

强化学习的行业自动化
在行业增强中 , 基于学习的机器人用于执行各种任务 。 除了这些机器人比人类更有效的事实外 , 它们还可以执行对人类危险的任务 。
一个很好的例子是Deepmind使用AI代理来冷却Google数据中心 。 这导致能源支出减少了40% 。 现在 , 这些中心已由AI系统完全控制 , 而无需人工干预 。 显然 , 仍然有数据中心专家的监督 。 该系统以以下方式工作:

  • 每五分钟从数据中心获取数据快照 , 并将其提供给深度神经网络
  • 然后预测不同的组合将如何影响未来的能源消耗
  • 确定将在保持设定的安全标准标准的同时将功耗降至最低的措施
  • 在数据中心发送并执行这些操作
这些动作由本地控制系统验证 。
|强化学习:10种真实的奖励与惩罚应用
本文插图

强化学习在贸易和金融中的应用
监督时间序列模型可用于预测未来销售以及预测股票价格 。 但是 , 这些模型无法确定要以特定股票价格采取的行动 。 输入强化学习(RL) 。 强化学习代理可以决定执行此任务;是否持有 , 购买或出售 。 强化学习模型使用市场基准标准进行评估 , 以确保其表现最佳 。
这种自动化为流程带来了一致性 , 这与以前的方法不同 , 以前的方法需要分析师做出每个决定 。 例如 , IBM有一个复杂的基于强化学习的平台 , 该平台具有进行金融交易的能力 。 它基于每次金融交易的损失或利润来计算奖励函数 。
|强化学习:10种真实的奖励与惩罚应用
本文插图

NLP(自然语言处理)中的强化学习
在NLP中 , 仅举几例 , RL可用于文本摘要 , 问题解答和机器翻译 。
Eunsol Choi , Daniel Hewlett和Jakob Uszkoreit提出了一种基于强化学习的方法来回答给定的长篇文章 。 他们的方法是通过首先从文档中选择一些与回答问题相关的句子来工作的 。 然后采用慢RNN来生成所选句子的答案 。


推荐阅读