文章插图
分享嘉宾:郭伟东 腾讯 高级研究员
文章整理:李传勇
内容来源:DataFunTalk
【腾讯信息流内容理解技术实践】出品社区:DataFun
注:欢迎转载,转载请留言 。
导读:目前信息流推荐中使用的内容理解技术,主要有两部分构成:1. 门户时代和搜索时代遗留的技术积累:分类、关键词以及知识图谱相关技术;2. 深度学习带来的技术福利:embedding 。但是分类对于兴趣点刻画太粗,实体又容易引起推荐多样性问题,而 embedding 技术又面临难以解释的问题 。这次主要介绍在信息流推荐中,腾讯是如何做内容理解克服上述问题的 。主要包括:
- 项目背景
- 兴趣图谱
- 内容理解
- 线上效果
1. 内容理解技术演进
文章插图
① 门户时代:1995~2002年,主要代表公司:Yahoo、网易、搜狐、腾讯 。互联网初期,因为数据较少,因此需要一个内容聚合的地方,人们才能够快速的找到信息 。因此,门户通过 "内容类型" 对内容进行整理,然后以频道页形式满足用户需求 。因为数据少,初期由人工对新闻进行分类 。随着数据的增多,靠人工分类已经变得不现实,因此各大公司纷纷引入分类技术,自动化文本分类 。此后,文本分类技术发展迅速 。
② 搜索/社交时代:2003年~至今,主要代表公司:搜狗、腾讯、google、百度 。随着网络的普及,数据的数量和类型的丰富,门户网站已经不能够承载信息分发的任务 。于是,一种新的信息分发技术诞生——搜索 。搜索除了需要分类信息以外,还需要精确知道文章是 "关于什么的",关键词技术很好的解决了这个需求,于是也成为那个时期的研究热点 。但是关键词技术有一个问题没办法克服:实体歧义问题 ( 如李白,究竟用户是找诗人李白,还是王者荣耀英雄李白 ) 。2012年 Google 提出知识图谱概念,可以用于解决上述的实体歧义问题,实体链指的问题也有了比较大的进展 。
③ 智能时代:2012年~至今,主要代表公司:今日头条、出门问问等 。使用2012年来作为智能时代的开始,主要是这一年头条成立 。头条定义了一种新的信息分发形式——个性化推荐 。虽然个性化推荐技术早有研究,但是对于信息分发这个任务有不可或缺的推动作用 。
但是在信息推荐中,我们仍然在使用分类、关键词和实体等传统的内容理解方法,那到底在智能时代下是否需要新的内容理解方案呢?
2. 推荐和搜索的区别
文章插图
推荐和搜索非常相似,都是根据已有的输入,返回跟输入相关的文章,但是对于内容理解的要求区别较大,下面仔细分析下原因:
搜索是给定一个 query 后,预测 doc 被点击的概率进行排序 。大致的处理流程如下:首先对 query 分词,得到 < term, weight> 的一个列表 ( 去除停用词等不重要的词 ),然后根据每一个 term 拉倒排索引 document list 做召回,再对召回的所有文章取并集,最后做整体的排序 。注意:这里排序的条件是所有 term 的交集 ( 条件概率标红部分 ) 。
推荐是给定一个 user 后,预测 doc 被点击的概率进行排序 。大致的处理流程如下:首先查询 user 的用户画像,得到 < term, weight > 的一个兴趣点列表,然后根据每一个 term 拉倒排索引 document list 做召回,再对召回的所有文章取并集,最后做整体的排序 。注意:这里排序的条件跟搜索是不同的,排序的条件是 term 的并集 ( 条件概率标红部分 ) 。例如用户阅读了王宝强马蓉离婚的新闻,会把 "王宝强"、"马蓉" 作为两个兴趣点积累到用户画像中,而对新的文章排序时候,实际上已经丢失了 "王宝强" 和 "马蓉" 兴趣点是同一篇文章同时积累的这个信息 。
通过上述分析,我们可以得到这样的结论:搜索经过召回之后,排序有完整的上下文信息;但是在推荐中由于经过了用户画像,使用传统的内容理解方案时,排序会丢失用户阅读的上下文信息 。因此,推荐对于内容理解需要保留完整的上下文,即把 "王宝强马蓉离婚" 当做一个完整的兴趣点,而不仅仅像搜索一样分别保留 "王宝强" 和 "马蓉" 。
推荐阅读
- 各大信息流平台推广特性
- 新湖明珠城楼盘相关内容介绍
- 梦见亲人死了复活 梦见亲人死人复活什么预兆
- 梦见亲人复活什么预兆 梦见亲人复活是什么意思,好不好,代表什么
- 开网店的风险有哪些内容 在淘宝开网店有风险吗
- 做内容平台绕不开思考的6件事
- 新手买房教科书,二手房交易流程
- 梦见烧香磕头下跪 梦见烧香磕头下跪拜神
- 什么是内容分发网络?
- 如何判断你的百度账户开通的是原生信息流