「栈外」Spotify算法如何猜你喜欢?

Spotify是一家于2008年在瑞典上线的正版音乐流媒体服务平台 。 它起步并不算早 , 且行业内各大巨头始终虎视眈眈 , 它却在一路激烈竞争中成功站稳脚跟 , 成为佼佼者 。

作为音乐流媒体服务平台 , 保证用户收听音乐的体验自然是成败关键 。 Spotify开发出了自属于它独门一套的技术 , 保证给用户推荐他们爱听却可能没听过的歌 , 每周都有新花样 。 而做到这一切的背后 , 是Spotify独家开发、在其应用程序各个服务中无处不在的算法技术 。

「栈外」Spotify算法如何猜你喜欢?

----「栈外」Spotify算法如何猜你喜欢? //----[ http://www.caoding.cn]

原文来自Medium , 作者Dave Gershgorn

Spotify , 一家正版流媒体服务平台 , 正竭尽全力地让用户听到更多的音乐 。

这家公司创建了一种算法实现管控 , 从个人最佳主页到定制歌单 , 比如“每周发现”(Discover Weekly) , 并持续探索试验新方法来了解音乐 , 以及了解为什么人们会听某首歌或某种类型的歌 , 而不是选择其他音乐 。

Spotify竞争对手如Apple Music、Amazon Prime Music和Google Music还在付费给个人创建歌单 , 或依靠社区创建的歌单 , 而Spotify的与众不同之处就在于它能够为用户实现高水准个人定制音乐 , 并为用户提供更多的音乐知识 。

Spotify需要持续构建这些算法 , 因为这是为其超过2亿的用户创造私人音乐体验的唯一途径 。 在Spotify努力发展业务的过程中 , 上述这种令它与众不同的因素需要对消费者产生足够的吸引力 , 让消费者订阅该服务 。

Spotify应用软件的主页面能够体现Spotify的算法如何管控音乐体验 。 根据Spotify的调研总监莫尼娅·拉马斯·罗莱克(Mounia Lalmas-Roelleke)的一次演讲 , 该页面的目标在于快速地帮助用户找到他们将会喜欢的音乐 。

罗莱克解释道 , Spotify主页面由一个叫做BaRT(译注:全称“Bandits for Recommendations as Treatments” , “眼里只有推荐音乐一件事儿的强盗”)的人工智能系统控制 。 该系统的任务是为每个用户以专门定制个人主页 。 这其中包括“音乐架” , 包括一系列同一主题的歌单 , 例如“艺术家最佳”或“氛围音乐” , 然后该人工智能系统会让歌单出现在对应主题的音乐架上 。

BaRT系统是Spotify兼顾各方面的核心举措 , 致力于在用户先前听歌习惯的基础上 , 给用户提供Spotify相信用户会喜欢的音乐 。 但是Spotify还得时不时给用户推送一些新鲜的音乐 , 以免让用户陷入一直听相同音乐的循环里 。

BaRT的运用可以被归结为两大概念:深挖和探索 。

当Spotify深挖用户喜好时 , 它利用它所知道的用户信息 , 考虑用户的听歌历史 , 考虑用户跳过了哪些歌曲、创建了什么样的歌单 , 考虑用户利用平台的社交功能做了什么 , 甚至考虑用户的所在地 。

但当Spotify探索时 , 它会利用所有外界的其他信息 , 比如和用户口味相近、但用户还没听过的歌单和艺术家 , 其他艺术家的热度 , 以及更多 。

和Spotify深挖和探索能力同等重要的 , 是Spotify的应用软件该如何向用户解释它的推送选择 。 每个音乐架的标签例如“回到这里”或“更多你喜欢的”都在告诉用户为什么Spotify正在推荐这些具体的歌单 。 2018年关于BaRT的研究论文中指出 , Spotify发现对于相信解释的用户来说 , 解释是极其重要的 。

BaRT是否成功是由用户是否会真的去听那些音乐架上的音乐、以及听多久来丈量的 。 根据罗莱克的演讲 , 当用户播放一首歌超过30秒 , 算法就会将这次推荐记录为正确 。 用户听推荐的歌单或者一系列歌曲的时间越长 , 该推荐就会被视为越优 。

Spotify似乎将判断一个人是否喜欢一首歌的舒适点定在了30秒 。 在2015年与新闻媒体Quartz进行的访谈中 , Spotify的产品总监马修·欧格(Matthew Ogle)提到说 , 用户在30秒之前跳过就等于对“每周发现”歌单的否定 。

在研究中 , 该公司明确如果所有这些算法服务想要获得成功 , 就必须追踪和记录用户在使用该服务时的每一项操作 。

还没有足够的学术研究来全面揭示“每周发现”歌单运作原理的细节 。 在Quartz的采访中 , 欧格给出了对于该系统的概述 , 此概述与2015年的一份报告有关 , 该报告由Spotify的员工所作 , 技术性略强 。

“每周发现”是一份由30首歌组成的歌单 , 其中的歌曲来自其他与你音乐偏好相似的用户 , 或是一些听起来和你常听的歌十分相像的歌曲 , 还有一些歌曲摘取自近期的音乐博客 。

The Echo Nest是Spotify在2014年以1亿美元收购的初创公司 , 其合伙创始人布莱恩·怀特曼(Brian Whiteman)在2012年写道 , 他的软件每天搜寻超过1,000万个音乐相关的网页 , 来确定在音乐世界的潮流趋势 。

“任何人在网络上说出关于音乐的每一个词 , 都会经由我们的系统 , 我们的系统会在其中寻找描述性的用语、名词短语和其他文本 。 ”怀特曼写道 。

Spotify的实习生山德·迪利曼(Sander Dieleman)曾于2014年在该公司工作 , 从事一些基础工作 , 分析歌曲在听觉上相似性的 , 也在一篇个人文章中解释了音频分析算法 。

此前的问题在于 , 每天都有新音乐上传至Spotify , 但如果它不是一个先前颇具人气的艺术家所作的作品 , 就没有系统会推荐它 。

如果某位艺术家根本没人知道 , 协同过滤(译注:Collaborative filtering , 是一种较为著名和常用的算法 , 它仅仅通过了解用户与音乐之间的关系进行推荐 , 而不会考虑到音乐本身的属性)对于为用户推荐与其音乐偏好类似用户喜欢的音乐根本就不起作用 。

迪利曼将其称为“冷启动问题(Cold-start problem)”(译注:用户冷启动问题指在开始初期 , 没有足够数量的用户数据以使算法生效的问题) 。

解决办法就是 , 分析音频本身 , 并训练一个算法来习得识别出音乐吸引力的不同可能来源 。 迪利曼做的一些实验识别出了歌曲的具体吸引力来源 , 例如失真吉他 , 而其他一些实验可以识别出更为抽象的来源 , 例如音乐类型 。

这一系统目前是“每周发现”歌单的重要构成 , 这也是为什么用户或许会发现系统正给自己推荐此前闻所未闻的艺术家 。

算法可以被应用在Spotify的方方面面 。 不仅有推荐算法 , 例如设计主页和“每周发现”;还有一些更小的工具 , 用户或许使用了它们但永远意识不到 , 这些工具就是相对尖端的人工智能研究产物 。

以自动续播歌单为例 。 这一功能会分析特定播放列表中的歌曲 , 并试图预测下一首该播放的歌是什么 , 就像是该播放列表有一位创建者在持续手动添加歌曲一样 。

Spotify想要采取新思路来考虑如何构建这一功能 , 因此推出了“百万歌单数据集” , 由用户制作的Spotify歌单组成 , 算法可以通过这些歌单可学习人们眼中好的播放集都具有哪些特征 。

在2018年的产业大会上 , Spotify邀请了其他人工智能研究者来尝试帮助他们解决问题并展示解决方案 。 根据一篇由组织者在赛后发布的分析称 , 该项目集结了超过100支学术及业内团队 。

Spotify的研究者们也在研究探测区别不同专辑版本的办法 。 他们想要解决当用户想听原版 , 但Spotify播放另一个版本的问题 。 这项工作的成果是能够准确地将其他版本和原版区分开来 , 尤其是伴奏和现场演出 。 爵士乐会更难一些 , 因为爵士乐通常会有更多的即兴演奏 。

该团队也在研究如何使歌词对齐演唱时间 , 这一研究不仅会助力Spotify的“音乐幕后(Behind the Music)”功能(该功能会在流行歌曲播放的同时显示歌词) , 也能为Spotify打开新的机遇 。

“时间对齐的歌词能够丰富音乐收听体验 , 因为这使得卡拉OK、基于文字的歌曲回溯和歌曲内导航等功能成为可能 。 ”Spotify的计算机科学家在今年早些时候写道 。

除了针对Spotify平台优化进行这些研究 , 该公司同时在对其用户进行研究 。 根据2019年4月公布的一则研究表明 , Spotify研究了超过1,600万用户的数据 , 追踪他们从2016年12月到2018年2月的听歌模式 , 包括某人一天播放某个特定艺术家的作品或特定某首歌多少次 , 以及他们位于美国的哪个州 。

通过这些数据 , 再加上用户自己提供的性别、年龄信息 , 使Spotify能够研究用户的音乐喜好是否会在他/她搬到另一个州之后发生改变 , 以及年龄影响人们听的音乐类型的方式 。

Spotify研究团队通过一种巧妙的办法来推测某用户是哪里人:基于位置信息 , 研究数据中 , Spotify的部分用户会在三个主要节日(2016年的圣诞节、2017年的感恩节和2017年的圣诞节)中的两个前往另一个州 , 研究团队推测 , 他们假期前往的州就是他们的老家 。

通过研究各个州居民的音乐喜好 , 并对比那些移动到音乐潮流风格不同地区的用户 , Spotify团队得出总结:长时间呆在某个地方确实会给音乐喜好带来微小的影响 。

“搬到另一个地方确实会影响到个人喜好 , 人们会略微倾向于新环境的潮流 。 然而 , 这一影响的程度很小 , 而且比起现在的环境 , 用户明显与过去环境的喜好更相似 。 ”研究团队写道 。

通过研究年龄 , 研究团队还提出 , 一个人10岁到20岁时期流行的歌曲也是他将来主要会听的歌曲 , 而这便形成了他的“音乐身份” 。

这一切都指向Spotify的巨量数据信息 。 为了提供服务 , Spotify不仅拥有这些数据 , 还需要持续从它的用户那里收集 , 以能保持其竞争优势 。 2015年关于“每周发现”的报告中提到 , Spotify每天从用户处收集的数据量达到1TB(译注:计算机储存容量单位 , 即1万亿字节 。 1TB=1024GB) 。

不过 , 这些数据明确地用于对用户提供服务 。 Spotify在研究中明确强调 , 所有这些算法服务 , 只有追踪记录用户在软件上进行的每一项操作才有可能成功 。

而这或许就是音乐流的“秘制酱料”了 。 虽然和各个科技巨头一路血战 , Spotify最终设法成功繁荣壮大了 。 它的竞争对手包括音乐流媒体巨头Apple , 但现在已全球拥有了超过千万付费用户的Spotify正把Apple在地上暴揍呢 。


    推荐阅读