仅少量视频观看数据,即可精准推断用户习惯:迁移学习架构PeterRec


机器之心发布
机器之心编辑部
仅从一个人的抖音、快手、腾讯视频的观看记录里 , 我们能发现什么?近日 , 腾讯看点研发团队、Google London 和中科大的研究工作首次证实 , 仅依靠用户视频新闻观看记录 , 就可以精确地推测出用户的各种个人信息信息 , 包括但不限于用户年龄段、性别、喜好、人生状况(例如单身/已婚/怀孕等)、职业、学历等信息 , 甚至是否有心理抑郁暴力倾向 。 目前 , 这篇论文已经被信息检索领域顶级国际会议 SIGIR 接受为长文章 。
仅少量视频观看数据,即可精准推断用户习惯:迁移学习架构PeterRec
本文插图

推导迁移学习对计算机视觉和 NLP 领域产生了重大影响 , 但尚未在推荐系统广泛使用 。 虽然大量的研究根据建模的用户-物品交互序列生成推荐 , 但很少有研究尝试表征和迁移这些模型从而用于下游任务(数据样本通常非常有限) 。
在本文中 , 研究者深入研究了通过学习单一用户表征各种不同的下游任务 , 包括跨域推荐和用户画像预测 。 优化一个大型预训练网络并将其适配到下游任务是解决此类问题的有效方法 。 但是 , 微调通常要重新训练整个网络 , 并优化大量的模型参数 , 因此从参数量角度微调是非常低效的 。 为了克服这个问题 , 研究者开发了一种参数高效的迁移学习架构「PeterRec」 。
仅少量视频观看数据,即可精准推断用户习惯:迁移学习架构PeterRec
本文插图
论文链接:https://arxiv.org/pdf/2001.04253.pdf
PeterRec 可以快速动态地配置成各种下游任务 。 具体来说 , PeterRec 通过注入一些小型但是极具表达力的神经网络 , 使得预训练参数在微调过程中保持不变 。 研究者进行了大量的实验和对比测试 , 展示学习到的用户表征在五个下游任务中是有效的 。 此外 , PeterRec 在多个领域进行高效的迁移学习时 , 可与微调所有参数时所呈现的性能相当 , 甚至更好 。
这一客观发现和研究方法将有利于改进现有的一些公共服务质量 , 提供相关辅助依据实现更为精准的政府决策 , 也可以为商家和广告商等带来更大的利润 , 同时也会进一步推动隐私保护的相关研究和相关法案(可以想像以抖音快手这种短视频 APP 为例 , 每天每个常规用户可以产生数百乃至数千的点击记录 , 如此巨大的用户行为数据潜在地包含了我们无法想象的个人隐私数据) 。
从数据收集到用户推荐
在过去的十年中 , 社交媒体平台和电子商务系统(例如抖音、Amazon 或 Netflix)在人们生活中的使用频率变得越来越高 。 因此这些系统中也产生了大量的点击、购买互动以及其他用户反馈 。 以抖音为例 , 常规用户在每个周可能观看成百上千个短视频 。 与此同时 , 大量的研究表明这些用户交互行为可以用来建模用户对于物品的喜好 。 比较有代表性的深度学习模型 , 例如 GRU4Rec 和 NextItNet 在时序推荐系统任务中都取得了较大的成功 。 然而绝大多数已有工作仅仅研究推荐任务在同一平台的场景 , 很少的工作尝试学习一个通用用户表征 , 并且将该用户表征应用到下游任务中 , 例如冷启动用户场景和用户画像预测等 。
为了解决这个挑战 , 本文尝试以一种无监督训练方式预训练一个神经网络 , 然后将此神经网络迁移到下游任务中 。 为此 , 论文需要至少解决三个问题:
构造一个有效的预训练模型 , 能够建模超长用户点击序列;
设计一种微调策略 , 能够将预训练网络适配到下游任务 。 目前为止 , 没有相关文献证实这种无监督学习的用户表征是否对其他场景有帮助;
设计一个适配方法 , 能够使得不同任务都能充分利用预训练网络参数 , 从而不需要微调整个网络 , 达到更加高效的迁移学习方式 。
仅少量视频观看数据,即可精准推断用户习惯:迁移学习架构PeterRec


推荐阅读