『今日头条』字节跳动的技术架构
字节跳动创立于2012年3月 , 到目前仅4年时间 。 从十几个工程师开始研发 , 到上百人 , 再到200余人 。 产品线由内涵段子 , 到**** , 今日特卖 , 今日电影等产品线 。
一、产品背景 ****是为用户提供个性化资讯客户端 。 下面就和大家分享一下当前****的数据(据内部与公开数据综合):
- 5亿注册用户
- 2014年5月1.5亿 , 2015年5月3亿 , 2016年5月份为5亿 。 几乎为成倍增长 。
- 日活4800万用户
- 2014年为1000万日活 , 2015年为3000万日活 。
- 日均5亿PV
- 5亿文章浏览 , 视频为1亿 。 页面请求量超过30亿次 。
- 用户停留时长超过65分钟以上
??我们日常产生原创新闻在1万篇左右 , 包括各大新闻网站和地方站 , 另外还有一些小说 , 博客等文章 。 这些对于工程师来讲 , 写个Crawler并非困难的事 。
??接下来 , ****会用人工方式对敏感文章进行审核过滤 。 此外 , *******目前也有为数不少的原创文章加入到了内容遴选队列中 。
??接下来我们会对文章进行文本分析 , 比如分类 , 标签、主题抽取 , 按文章或新闻所在地区 , 热度 , 权重等计算 。
2、用户建模
当用户开始使用****后 , 对用户动作的日志进行实时分析 。 使用的工具如下:
- Scribe
- Flume
- Kafka
- Hadoop
- Storm
??随着用户量的不断扩展大 , 用户模型处理的机器集群数量较大 。 2015年前为7000台左右 。 其中 , 用户推荐模型包括以下维度:
- 用户订阅
- 标签
- 部分文章打散推送
3、新用户的“冷启动”
****会通过用户使用的手机 , 操作系统 , 版本等“识别” 。 另外 , 比如用户通过社交帐号登录 , 如新浪微博 , 头条会对其好友 , 粉丝 , 微博内容及转发、评论等维度进行对用户做初步“画像” 。
分析用户的主要参数如下:
- 关注、粉丝关系
- 关系
- 用户标签
4、推荐系统
推荐系统 , 也称推荐引擎 。 它是****技术架构的核心部分 。 包括自动推荐与半自动推荐系统两种类型:
1) 自动推荐系统
- 自动候选
- 自动匹配用户 , 如用户地址定位 , 抽取用户信息
- 自动生成推送任务
2)半自动推荐系统
- 自动选择候选文章
- 根据用户站内外动作
在还没有推出***时 , 内容主要是抓取其它平台的文章 , 然后去重 , 一年几百万级 , 并不太大 。 主要是用户动作日志收集 , 兴趣收集 , 用户模型收集 。
资讯App的技术指标 , 比如屏幕滑动 , 用户是不是对一篇都看完 , 停留时间等都需要我们特别关注
5、数据存储
推荐阅读
- 『传祺』广汽传祺GS4 PHEV将于今日上市 纯电续航61km
- 海通证券@券商获客没成本?可比一杯瑞幸咖啡贵多了!三家券商“搭车”字节跳动 引市场热议
- 【趣头条】新华书店牵手“饿了么”,图书外卖了解一下……
- 『』一加8系列今日火爆开售,助力CF手游打造120帧新体验
- 注册量:3月全国健康保险相关企业注册量增318% 字节跳动、滴滴、小米均布局
- #蚂蚁#喝什么更能解辣?蚂蚁庄园4月17日答案 小鸡宝宝考考你今日答案
- [趣头条]智能水杯新玩法,你要的健康都在这里,小水怪智能水杯试用体验。
- 奥林匹克运动会@蚂蚁庄园4月16日题目答案 奥运冠军获得的金牌主要材料是什么?支付宝蚂蚁庄园今日答案
- 趣头条@宇尘说车│阿里系干将加盟斑马网络 新车系统或主打AI
- 曲米茶■华为 nova 7 系列手机官宣:4 月 23 日正式发布