|首家强化学习大规模落地工业应用，快手是如何做到的？

机器之心报道
编辑：泽南
快手的日活跃用户数量超过三亿，其背后是业界领先的人工智能技术。
人工智能技术正被科技公司广泛应用在产品中，谷歌等公司已在搜索引擎中加入了 BERT 这样的预训练模型，而强化学习这种需要耗费大量算力的方法也已成为快手推荐系统的核心。
近日，我们与快手核心推荐算法团队技术负责人，卡耐基梅隆大学博士叶璨聊了聊，他向我们介绍了快手在推荐系统等核心业务中引入强化学习技术的历程，以及大规模应用强化学习技术带来的业务收益。
叶璨博士毕业于卡内基梅隆大学（CMU），此前曾担任百度资深架构师。他在 2017 年加入快手社区科学部，作为算法负责人负责推荐算法、强化学习、增长广告等技术方向。期间从 0 到 1 建立核心算法团队，主要工作之一是主导了强化学习技术在快手推荐等核心业务的落地及大规模应用。
今天当我们在刷快手的时候，我们会获得什么样的体验？

本文插图

「个性化推荐算法决定了，用户每一次刷快手时，会看到什么样的视频内容」叶璨博士说道。「推荐系统是快手生态体系的核心，而个性化推荐算法可以在每天新增数千万视频的海量视频库中，帮助用户高效地获取感兴趣的视频内容，最大程度吸引用户，提升用户留存和粘性。」
在快手的核心推荐算法团队， AI 科学家和算法工程师们一直在不断迭代推荐的核心技术，打造业界最前沿的推荐算法、技术能力，希望给用户带来最好的内容推荐体验。
强化学习技术这一 AI 领域的重要技术方向，在最近这波 AI 浪潮中，由 AlphaGo 而逐渐被人们所熟知。在推荐和广告算法领域，强化学习也在成为重要的技术趋势。
快手平台上每天有数亿用户进行短视频内容的消费，而这背后有业界最大规模之一的推荐系统提供支持。超大规模的推荐系统也为最前沿的 AI 技术提供了创新平台。快手推荐团队在业界率先落地了基于强化学习技术的推荐系统，基于强化学习的推荐模型已在为数亿用户提供日常的推荐服务。它可以更精准、更实时地捕捉和满足用户的兴趣，并带来更好的内容多样性。
基于强化学习的视频推荐
在 AlphaGo 中出现的强化学习算法，是如何帮助你刷快手的？具体来说，用户的每次推荐请求，都是由推荐系统从数千万的候选视频中挑选出数个视频返回给用户的。整个过程大致分为两个阶段：
召回：从千万量级的视频库中筛选出数百相关的候选视频，主要基于策略规则和简单模型。
排序：从数百候选视频中挑选出最终展示的若干视频（一般为数十）返回给用户，这一阶段我们需要应用相对复杂、精准的模型。排序问题可以建模成从 M 个视频的候选集中挑选出 N 个视频组成的有序列表。

本文插图

由此可见，排序是推荐系统的核心任务。在这个过程中，传统推荐排序算法通常会采用 point-wise 排序框架，基于经验公式或者排序模型，「独立」地预估每个候选视频的排序分数，并按分数从高到低排序，截取 top N 视频返回。
这一方法可能面临一个重要的问题：排序模型忽略了相邻视频间的影响，无法从视频序列的角度优化整体的推荐效果，这和信息流产品形态间存在天然的隔阂。
如果用户喜欢某一类视频，传统方法会独立对每个候选视频打分，这就会倾向于将同类视频排到前面，造成推荐内容的同质化，长期如此很可能会造成用户对内容的厌倦。对此，传统方法还会加入基于规则的多样性打散策略，但这种思路显然不是最优方案。
快手核心推荐团队创新地采用强化学习重新定义了推荐排序技术：提出了基于强化学习的序列化排序框架，将输出 N 个视频序列的任务建模为连续进行 N 次决策的过程，依次从候选集中挑选出 N 个视频。强化学习排序模型端到端地完成整个推荐排序过程，从数百视频候选集中挑选出由数十个视频组成的有序列表，并返回展示给用户。

本文插图

本文插图
示意图：传统排序算法 vs 强化学习排序算法。
【|首家强化学习大规模落地工业应用，快手是如何做到的？】在强化学习模型排序的过程中，每次挑选视频的目标都是最大化视频序列的整体「奖励」，例如优化视频序列的整体观看时长。「这个过程和下围棋的人工智能类似，」叶璨介绍道。「在下棋的过程中，棋手不能只考虑当前这步棋的收益，而需要有更长远、更全局的视角去考量，有时会需要牺牲短期利益。」视频推荐也可以按照这样的思路来进行建模，从视频序列角度优化整体的推荐效果，同时保证推荐内容的多样性。
另外，强化学习排序算法可以保证更好的推荐精准性与实时性：在用户每次反馈（点击、点赞、转发...）发生之后，系统都会通过强化学习算法完成排序模型的在线更新。
每个人都有机会与顶尖 AI 对战
除了视频推荐之外，快手的强化学习技术也已应用在了旗下的多款小游戏中。如果你玩过快手平台的斗地主、五子棋、斗兽棋、象棋等游戏，你的对手可能会是系统指派的人工智能。
目前， AI 陪玩可能会出现在新手期，或是游戏玩家数量低峰期，当然如果你的水平足够高，也会在最高难度上遇到「超越人类水平」的 AI ，感受一下 AlphaGo 带来的恐惧。

本文插图

在游戏 AI 领域，研究人员自 2018 年初就开始在游戏中尝试强化学习技术。游戏 AI 在快手游戏产品中的主要应用形态是陪玩，这对处于孵化阶段（用户数有限）的游戏产品尤为重要。从 2018 到 2019 年，游戏 AI 技术在快手的多款棋牌类游戏上完成了落地，支持了快手游戏业务的快速发展。
强化学习已经重新定义了游戏 AI 的生产方式。在传统的游戏 AI 中，不论是基于规则的方法还是监督学习的方法都严重依赖于人类专家提供的经验和数据，最终实现的智能水平也相对有限，且无法实现动态的 AI 难度分级。
而这一切对于强化学习游戏 AI 来说并不是难事。在游戏上，快手已应用了通用游戏 AI 算法框架，其使用基于自我博弈的强化学习技术（self-play reinforcement learning），不仅可以在特定游戏上扮演不同难度的 AI 玩家，还可以实现自动化生产：只需要输入游戏规则，不依赖人类经验或数据而完全由 AI 自我博弈产生数据，通过强化学习算法实现 AI 能力的训练和进化。

本文插图

这一技术的本质类似于 DeepMind 的围棋人工智能 AlphaGo Zero ，是基于自我博弈强化学习的通用算法框架，可以扩展到多个不同领域，由 AI 自我博弈产生训练数据，通过强化学习算法实现智能体的自我训练和性能提升。
不过相比 AlphaGo ，快手游戏 AI 更加面向应用，它可以在线为成千上万的游戏玩家提供服务，不仅考虑了游戏 AI 的高水平，还兼顾了其他产品需求，包括 AI 智能分级（为不同水平的用户提供相应智能等级的 AI），拟人化等。
落地核心业务，做最精准的流量分发
作为目前中国最大的流量平台之一，快手的流量生态包含了各种业务流量的混合，包括视频推荐、直播、运营、电商、广告等，内容对用户的精准触达，是快手的核心业务问题。
快手在流量分发业务中大规模地应用了强化学习技术，比如最大的流量入口 - 个性化 tab 分发，以及各垂类产品在 feed 流中的精准分发，包括直播、游戏、音乐、社交等业务。
比如用户每次打开快手 app ，强化学习算法会决定你跳转到发现、关注、同城中的哪个 tab 页面。强化学习接管的位置，是快手最大的流量分发入口，涉及主页三大 tab 页面的流量分配，影响 app 的使用时长、DAU（日活跃用户数量）等关键指标。算法会参考用户的行为偏好、习惯等进行流量分发，例如用户在特定时间段喜欢进入某个 tab 页进行消费。同时算法也会根据实时的 feed 信息进行主动引导，例如关注页有喜欢主播开播，会将用户跳转引导至关注页。
在垂类业务的流量分发中，快手已在形态上改变了传统的推送方式，他们在 feed 流中插入垂类聚合页，由算法决定聚合页的展示时机，其中包括音悦台、游戏 TV、PYMK 、直播广场等垂类产品。
在这里，基于传统的数据挖掘或策略规则无法做到实时准确，只有通过强化学习算法才能够实现精准分发。「如果内容被推送给了不合适的用户，或者在不合适的时机，展示聚合页入口，不仅难以形成垂类业务的消费和转化，还会影响用户正常的 feed 流体验，」叶璨说道。

本文插图

快手的算法以流量为粒度进行决策，每次决策的目标都是最大化一段时间内的整体收益，同时保持在线学习和更新，用户每次反馈后，强化学习决策算法都会更新模型，快速适应用户的行为习惯。通过不断强化用户反馈，系统逐渐收敛达到最优的流量分发策略，同时也保持了实时更新的能力。
从零到一的探索
强大技术的背后，是快手核心推荐算法团队不懈的努力。早在 2018 年，快手就在推荐系统上开始尝试强化学习技术。「当时业界没有任何成熟落地的方案可以参考，」叶璨表示。「部分研究团队已经有一些论文，关于强化学习在推荐、广告、搜索领域的应用，但大多偏向于概念，距离实用化还有一段距离。而我们的目标一直是应用落地，我们希望能够用强化学习技术解决推荐系统的核心问题。」
快手成为了强化学习推荐技术的先行者。在推荐系统哪个阶段应用强化学习技术，应该采用哪类强化学习算法，强化学习推荐模型的在线训练框架应该如何设计等等，这些问题都是从零开始探索的。
快手选择在推荐系统的核心——推荐排序阶段应用强化学习技术，它决定了应用最终向用户展示哪些视频，以及视频的排列顺序。在推荐算法领域，快手的 AI 科学家和算法工程师们完成了一项最前沿的技术突破，重新定义了推荐排序技术，使推荐系统具备了优化视频序列整体收益的能力。
2018 年底，快手在新用户推荐上完成了强化学习排序算法的验证和成功上线。 2019 年，这一技术拓展应用到了全量用户，完成了对推荐全流量的覆盖。
现在，基于强化学习的推荐系统每天为数以亿计的快手用户提供着实时的个性化推荐服务。强化学习推荐技术的研发和落地，是快手推荐过去两年最重要的技术突破。这项技术也带来了更好的推荐效果和用户体验，推荐核心指标（如用户观看时长）的提升达到 10% 以上，这也是过去两年快手推荐单项技术上线带来的最大幅度的指标提升。
与此同时，快手将目光瞄准新的应用场景 - 精准流量分发。在业界，快手创新地首次采用强化学习技术解决流量的精准分发问题，并将精准流量分发技术以中台化的形式输出至快手多个重要业务场景。目前在快手，这一技术已普及成为流量分发问题的常态化解决方案。
快手的算法可以在不影响用户正常 feed 流体验的同时，最大程度地帮助不同的产品和业务在合适时机完成对合适用户的精准触达，从而形成有效的用户转化。在一些业务场景下，相对于传统策略，强化学习算法对分发效率提升达到了 100% 以上。通过先进的算法，快手确保了流量的精准触达，帮助不同垂类业务实现了有效的用户转化、规模增长，提升了用户粘性和业务壁垒。
强化学习，已经成为快手的杀手锏级技术。快手表示，很多国外科技巨头也尚未做到强化学习技术的大规模落地和应用。
「强化学习已经成为推荐、广告算法领域最重要的技术趋势，各大公司相关算法团队纷纷尝试，但据我们了解，基本还处于研究和验证阶段，」叶璨说道。「不少发表的 paper 离实际业务场景相差较远，能经过线上 AB 实验验证的工作很少，更不用说在全流量上完成落地和覆盖。」
基于强化学习的推荐技术已经成为快手推荐系统的基础设施与核心能力，从技术成熟度和应用规模而言，快手推荐无疑是业界领先的。随着互联网 C 端竞争的不断深入，科技公司在行为上也更加趋同，这些先进技术，已为快手带来了额外的优势。
目前快手核心推荐算法团队，多数来自于清北、CMU 等国内外顶尖高校的博士、硕士，以及来自 BAT 等知名公司的工程师。团队成员曾在 NeurIPS、ICML、IJCAI、KDD 等 AI 顶会上多次发表论文。目前，团队的技术支撑了快手的推荐、流量分发、增长广告、游戏等核心业务。
「我们希望从实际问题出发，以解决核心业务问题作为唯一衡量标准，」叶璨表示。「AI 算法是解决问题的手段，不是目的，我们会根据实际面临的业务系统，设计合理的技术方案。我们将继续致力于解决核心业务问题，为快手的业务增长做出贡献。」

|首家强化学习大规模落地工业应用，快手是如何做到的？

推荐阅读

菜花头妈妈育儿经|后天的努力大于基因，父母矮小=生不出“大长腿”的孩子？你错了

芯片|1708亿！美国突然出手，谁也没想到，一切竟来得如此之快！

中开高速与新台高速大江南互通通车中开高速

三节课：支付宝迎来15年最大改版！决战微信下半场，到底谁能笑到最后？

游戏攻略|《十三号病院》第一章图文攻略

怎么样劝说父母去医院看病

秉笔春秋吕书生|45岁蒋勤勤新剧突破尺度！裸身拍戏，风采一点不输当年，

cba|CBA一天5消息！姚明被曝辞职辽宁男篮一喜一忧

总能感觉到有的人和自己说话时，有“轻蔑”的微表情，但又觉得是自己想多了。大家有类似的经历吗

野钓|水库实战技巧，本人看完深感受用，国庆钓鱼大总结

挂镜子对着别人真的有霉运效果吗?

音容历史父亲说一句话, 她哭着走了，开国中将前妻的女儿进城找父亲,

可降解塑料|股市两大泡沫破灭，唯有吃喝不败，已经影响股市走牛

中国网科技|猎豹移动2020年Q2财报：净利润2.44亿元 AI机器人部署超10000台

如何去冻虾虾线去冻虾的虾线方法

搜达足球|从3-1到3-3！中超再现99分钟大戏，裁判再成为主角，国安连夜上诉

大猩猩说影|金晨：穿着一身粉公主长裙瞬间变成少女，感觉像遇到自己大学初恋

海外网|美两栖攻击舰燃烧两天致61伤，高官：未来24小时有望灭火

红茶梅占的泡法

南叔|他们最大的错，就是低估了女人的心机，不管是陈俊生还是刘洋