|强化学习:10种真实的奖励与惩罚应用( 二 )


这篇文章将监督学习和强化学习相结合 , 用于抽象概括文本摘要 , 由Romain Paulus , 熊彩明和Richard Socher撰写 。 他们的目标是解决在较长文档中使用基于RNN的Attentional编码器-解码器模型时汇总中遇到的问题 。 此文提出了一种具有新颖的内部注意力的神经网络 , 它可以参与输入并连续不断地单独产生输出 。 他们的训练方法是标准的监督单词预测和强化学习的组合 。 (论文链接:https://arxiv.org/pdf/1705.04304.pdf?ref=hackernoon.com)
在机器翻译方面 , 科罗拉多大学和马里兰大学的作者提出了一种基于强化学习的同步机器翻译方法 。 这项工作的有趣之处在于 , 它能够学习何时信任预测的单词 , 并使用RL来确定何时等待更多输入 。(论文链接:
http://users.umiacs.umd.edu/~jbg/docs/2014_emnlp_simtrans.pdf?ref=hackernoon.com)
斯坦福大学 , 俄亥俄州立大学和Microsoft Research的研究人员领先于Deep RL , 用于对话生成 。 深度强化学习可用于在聊天机器人对话中为将来的奖励建模 。 使用两个虚拟代理模拟对话 。 策略梯度方法用于奖励包含重要对话属性(例如 , 连贯性 , 信息性和易于回答)的序列 。 (论文链接:https://arxiv.org/pdf/1606.01541.pdf?ref=hackernoon.com)
强化学习在医疗保健中的应用
在医疗保健方面 , 患者可以从强化学习系统学习到的政策中接受治疗 。 强化学习可以使用以前的经验来找到最佳策略 , 而无需有关生物系统数学模型的先前信息 。 它使该方法比医疗保健中其他基于控制的系统更适用 。
医疗保健中的强化学习被归类为慢性疾病或重症监护 , 自动医疗诊断和其他一般领域中的动态治疗方案(DTR) 。
在DTR中 , 输入是对患者的一组临床观察和评估 。 输出是每个阶段的治疗选项 。 这些类似于强化学习中的状态 。 强化学习在DTR中的应用是有利的 , 因为它能够确定与时间有关的决定 , 以便在特定时间为患者提供最佳治疗 。
在医疗保健中使用强化学习还可以通过考虑治疗的延迟效果来改善长期结果 。
强化学习也已用于发现和生成慢性疾病的最佳DTR 。
|强化学习:10种真实的奖励与惩罚应用
本文插图

强化学习在工程中的应用
在工程领域 , Facebook开发了一个开源强化学习平台Horizon 。 该平台使用强化学习来优化大规模生产系统 。 Facebook内部使用了Horizon:

  • 个性化建议
  • 向用户传递更有意义的通知
  • 优化视频流质量
Horizon还包含以下工作流程:
  • 模拟环境
  • 用于数据预处理的分布式平台
  • 培训和导出生产中的模型
视频显示中强化学习的经典示例是根据视频缓冲区的状态和来自其他机器学习系统的估计 , 为用户提供低或高比特率视频 。
Horizon能够处理类似生产的问题 , 例如:
  • 大规模部署
  • 功能归一化
  • 分布式学习
  • 使用高维数据和数千种要素类型来服务和处理数据集
|强化学习:10种真实的奖励与惩罚应用
本文插图

新闻推荐中的强化学习
用户偏好可能会经常变化 , 因此 , 基于评论和喜欢的消息向用户推荐新闻可能很快就会过时 。 通过强化学习 , 强化学习系统可以跟踪读者的回返行为 。
这种系统的构建将涉及获得新闻特征 , 阅读器特征 , 上下文特征和阅读器新闻特征 。 新闻功能包括但不限于内容 , 标题和发布者 。 阅读器功能是指阅读器如何与内容(例如点击和分享)进行交互 。 上下文功能包括新闻方面 , 例如新闻的时间安排和新鲜度 。 然后根据这些用户行为定义奖励 。


推荐阅读