读芯术|抖音的奇幻漂流:为什么TikTok让用户如此着迷?( 二 )
本文插图
图源:unsplash
“以用户为中心的设计”是这一原型的核心 。 简单来说 , 从冷启动期的后台调整到为活跃用户提供明确推荐 , TikTok只会推荐用户喜欢的内容 。
如果用户点击了舞蹈视频 , 一开始看到的内容就定制为这一娱乐类型 , 随后的机制是跟踪用户行为 , 进行进一步分析 , 最终提供该用户独有的精准推荐 。
高级工作流如下所示:
本文插图
3个主要组成部分
在TikTok的原型中 , 有三个主要的构成要素:标记内容、建立用户画像和用户场景以及训练并提供推荐算法 。
数据和特征
【读芯术|抖音的奇幻漂流:为什么TikTok让用户如此着迷?】
首先是数据 。 推荐模型的正式描述是:利用用户原创内容满足用户的功能 。 要提供这一功能需要输入三个方面的数据 。
· 内容数据——TikTok是一个有大量用户原创内容的平台 。 每种内容都有其特质 , 系统应该能够识别和区分内容 , 才能提供可靠的推荐 。
· 场景数据——这一数据记录的是使用场景 , 以及不同场景下用户的喜好转变 。 比如 , 某用户在上班、旅行、通勤时分别喜欢看什么类型的视频 。
· 用户数据——既包括兴趣标签、职业、年龄、性别、人口统计数据等 , 也包括以机器学习为基础的用户聚类分析得到的潜在特征 。
一旦收集到了相关数据 , 模型就会从中导出四种严谨设计的特征 , 输入推荐引擎中 。
· 关联特征:代表内容属性和用户标签之间的关联 , 包括关键词配对、分类标签、来源匹配、主题标签以及潜在特征(比如用户与内容发布者的距离) 。
· 流行特征:以用户交互为基础 , 代表国际潮流、热门话题、搜索热词、流行主题等等 。
· 用户场景特征:由场景数据而来 , 包括地理位置、时间段、事件标签等 。
· 协同特征:以协同过滤技术为基础 , 平衡了狭义推荐(根据喜好推荐)和协同推荐(综合用户喜好推荐) 。 具体而言 , 该算法不只考虑某个用户的浏览历史 , 还分析类似用户群体共同的行为(点击、兴趣、关键词、主题等) 。
模型会学习以上的特征 , 以此预测某个内容是否适合某用户在某种场景观看 。
无法度量的对象
在推荐模型中 , 点击率、浏览时间、点赞数、评论和转发都是可量化对象 。 程序员可以让模型或算法适应这些对象 , 然后做出最终预测 。
本文插图
图源:unsplash
然而 , 其他无法度量的对象是无法用量化指标来衡量的 。 比如 , 为了维持健康的社区环境和生态系统 , TikTok以控制暴力、诈骗、色情、浮夸内容为目标 , 将权重赋予符合事实、高质量的内容 , 比如新闻 。
为了实现这一目的 , 需要在量化模型对象之外 , 建立更大的控制框架(内容审核系统) 。
算法
推荐对象可以转化为经典的机器学习问题 , 然后协同过滤模型、逻辑回归模型、因子分解模型、几何数据库和深度学习等算法就能解决这一问题 。
行业级的推荐系统需要灵活可扩展的机器学习平台 , 这样才能建立实验流程 , 从而快速训练各种模型 , 然后把它们组合起来 , 实时提供服务(比如把LR模型和DNN模型组合 , CVM模型与CNN模型组合) 。
除了主要的推荐算法 , TikTok还需要训练内容分类算法和用户画像算法 。 以下是内容分析的层级分类结构 。
本文插图
层级分类树
从主干往下看 , 主类别的下方是子类别 。 与其他分类模型相比 , 使用层级分类机制能好地解决数据倾斜的问题 。
推荐阅读
- 读芯术|今日芯声——智能音箱四川话卖瓜,吸引老外前来买瓜
- 中年|禁止抖音海外版?面对美国高压,TikTok考虑将总部设在海外
- 电视|迪士尼公主抖音当主播,艾莎安娜成超级网红,莫阿娜成海洋保护者
- 直播|罗永浩抖音直播带货100天,糊了?
- 大数据&云计算|56亿元大单!TikTok(海外版抖音)与谷歌云签约 不再使用AWS
- 互联网|众多教育主体涌入短视频平台,“抖音企业号+教育”生态效应显现
- 中年|白宫经济顾问预计抖音海外版将以美企身份经营业务?
- 直播|阿里巴巴的2020奇幻漂流,谁是猛虎?
- 互联网|抖音摊上事了!这次是来自最强大国家的打击!网友:欺人太甚了!
- |袁国宝:抖音国际版频频遭遇封禁危险,张一鸣梦碎国际化?