3. 用户为什么会消费
文章插图
传统的内容理解仅仅解决了文章是什么的问题,但是对于用户 "为什么会消费" 却没有考虑 。举个例子来说,如果我们的一个朋友看了一款 XC60 的汽车,我们会给他推荐什么内容呢?我们一定不会不停的推荐 XC60,而是会猜测朋友可能是喜欢沃尔沃这个品牌,比较看重安全性,或者对于空间有一定要求的 SUV 。因此,如果要做好一个推荐系统,内容理解同样也需要相应的能力,挖掘用户真实消费意图 。
4. 传统的 NLP 的技术缺陷
文章插图
以上是整个项目的背景,我们总结一下 。传统 NLP 技术存在缺陷:
- 分类:人工预定义,量级千规模;优点:结果可控性高,人工可以参与运营;缺点:粒度太粗,难以刻画用户粒度的兴趣点,推荐不精准;
- 关键词:规模庞大,量级可达千万;优点:技术成熟;缺点:绝大多数词不能反映用户兴趣,需要配合兴趣白名单一起使用,不能解决歧义的问题;
- 实体词:常见实体百万量级;优点:精准刻画用户兴趣,结果可控性高;缺点:推荐内容单一,容易造成信息茧房;
- LDA:量级千规模,优点:技术成熟,可以人工预先选择出有意义的类簇;缺点:规模和分类相当,粒度太粗,与分类问题相同;
- Embedding:量级不受限制;优点:研究热点,有成熟技术;缺点:难以解释 。
- 推荐系统需要积累用户模型,因此需要保留完整的上下文,语义粒度要完整;
- 不同的人消费同一篇文章背后原因可能不同,因此需要有一定的推理能力 。
兴趣图谱
1. 兴趣点图谱
文章插图
根据上述分析,我们提出了兴趣点图谱,用于解决上述个性化推荐中遇到的问题 。兴趣点图谱由四层组成:分别为:分类层、概念层、实体词和事件层 。下面分别介绍各层的内容:
- 分类层,一般是由 PM 建设,是一个严格树状的结构,一般在1000左右个节点;
- 概念层:有相同属性的一类实体称之为概念,例如老年人专用手机、省油耐用车等;
- 实体层:知识图谱中的实体,如:刘德华,华为 P10 等;
- 事件层:用来刻画某一个事件,例如:王宝强离婚、三星手机爆炸等 。
2. 概念挖掘
文章插图
概念本质是一种短语,其实短语挖掘的论文非常多,像韩家炜老师团队就有很多相关的论文,但是概念有自己的独特性:
① 没有训练样本,并且人工难以标注 。因此只能通过弱监督方法解决冷启动的问题,然后使用监督方式提升覆盖 。
② 粒度问题 。比如 "明星" 是一个概念,但是太泛,不能精准刻画用户兴趣,但是 "身材好的女明星" 就很合理,那如何描述粒度呢?使用 UGC 数据,用户真实表达需求 。
因此,具体挖掘时,我们使用了搜索数据,通过用户的点击行为进行半监督算法的学习 。具体算法如上图所示:
挖掘概念使用的是搜索数据,每一个概念都有多个点击的网页,对网页进行实体抽取,然后统计实体和概念的共现频次就可以获得较为准确的上下位关系,我们在 KDD 的 paper 中有详细的介绍,这里就不再重复 。
3. 热门事件挖掘
文章插图
事件指的是热门事件 。如果一个事件比较热门,网友就会有了解需求,会通过搜索引擎来查询事件,因此我们使用 query 作为热门事件挖掘的来源 。
一个比较常见的方法是根据事件搜索量变化趋势判断,常规的做法是 BRD ( Burst Region Detection ),判断时间序列上是否有爆发点 。但是 BRD 会遇到一些归一化,甚至多 point 的问题,于是我们采用了上图的方式克服上述问题:
推荐阅读
- 各大信息流平台推广特性
- 新湖明珠城楼盘相关内容介绍
- 梦见亲人死了复活 梦见亲人死人复活什么预兆
- 梦见亲人复活什么预兆 梦见亲人复活是什么意思,好不好,代表什么
- 开网店的风险有哪些内容 在淘宝开网店有风险吗
- 做内容平台绕不开思考的6件事
- 新手买房教科书,二手房交易流程
- 梦见烧香磕头下跪 梦见烧香磕头下跪拜神
- 什么是内容分发网络?
- 如何判断你的百度账户开通的是原生信息流