咋形象理解embedding这个概念( 五 )
I2I是不考虑人的因素的,I2I一般应用到以下场景:
“比如一个人喜欢买各种X类型的手机,把所有物品的Embedding,然后找跟X类型手机距离近的物品推荐给这个人即可”。所以I2I算法更多地是考虑如何求物品间的相关性,并表示成Embedding。
我把I2I和U2I的比较流行的算法做了个汇总,如下图:
I2I算法介绍先来讲I2I算法,为什么分文字和图片两个类目呢?因为平时我们看到的新闻大致是这样的:
?商品大致是这样的:
待推荐物品都会包含图片和说明文字,需要同时考虑这两部分的Embedding。
图片类型比较简单,一般都是ResNet这些算法的中间向量结果导出作为这个图片的Embedding表示:
文本类的Embedding可以分为两种,一种是比较传统的word2vector、fasttext、glove这些算法的方案,叫做词向量固定表征类算法,这些算法主要是通过分析词的出现频率来进行Embedding生成,不考虑文本上下文。
而另一种文本Embedding方法,也是目前最流行的方案是动态词表征算法,比如Bert、ELMo、GPT,这类算法会考虑文本上下文。
动态词表征和固定词表征算法的区别可以举个例子说明,比如下面这句话:“小明爱吃苹果,也爱使用苹果手机”。需要对“苹果”这个词做Embedding,固定词表征算法很难区分出吃的苹果和手机苹果品牌,而动态的表征方法是可以的。
U2I算法1.ALSU2I算法可以分为4类,最经典的就是MF矩阵分解算法ALS,
比如在ALS算法输入的是下图这样的人对歌的打分数据,
?
ALS会根据这样的数据产出两个矩阵,这两个矩阵分别表示每个听众的Embedding和每首歌的Embedding。
2.基于浏览序列Embedding另一种相对高级的人的Embedding方案是Bert+LSTM,这类方案叫浏览序列Embedding法。我们可以把每个用户历史的浏览记录作为这个人的属性的表示。
假设一个用户先后浏览过3篇文章,分别是:
“巴特尔掀翻奥尼尔”“易建联怒砍3分,2篮板”“孙悦率领湖人勇夺总冠军”那就可以把这3篇新闻标题用Bert向量化,再将这些向量按照浏览序列输入LSTM,最终就生成这个用户的Embedding表示。
3.动态协同过滤接着再介绍一种基于簇群的协同过滤召回方案,一般是KMEANS+CF。CF就是协同过滤法,原理不多说了。这种召回方案一般是先将每个用户按照他的标签做Tag Embedding,比如可以按照年龄、性别、身高做个Embedding。
小明=
(29岁,1代表男性,身高180)
然后用KMEANS做所有用户的自动聚类,接着针对每个聚类簇内部的用户做相互之间的协同过滤,这样可以保证为相似口味的人推送互相都喜欢的物品。
4.图神经网络
图神经网络Embedding是目前比较热门的,效果也是相对比较好的一个方案。图神经网络把每个用户有过行为交互物品看作一个点,把具体的行为看作边。如下图所示:
推荐阅读
- 学图像处理有哪些不错的书推荐
- 应该怎样理解会员服务的法律性质
- 端口到底是啥概念和ip之间有啥关系能形象+抽象的从技术角度描述一下吗
- 王祖蓝|妻子李亚男临盆在即,王祖蓝连夜赶火车睡卧铺,头发凌乱形象邋遢
- 读书读到3分之一的时候感觉很难理解,要不要继续
- 怎样简洁到位地让外国人理解中文互联网文化中的「屌丝」、「喷子」、「五毛」、「水军」、「公知」等词
- ActiveMQ、MQTT的方式进行Android消息推送,我的理解是否正确
- |嫦娥五号升空,探月IP形象首发,北京越野向“潮牌”转型
- 讲座|启东系统培训帮助老师和家长更好理解孩子
- 冯绍峰|冯绍峰古装照曝光,神情萎靡“熊猫眼”吓人,形象气质暴跌
