PaperWeekly从EMD、WMD到WRD：文本向量序列的相似度计算

北京联盟_本文原题：从EMD、WMD到WRD：文本向量序列的相似度计算
?PaperWeekly 原创 · 作者｜苏剑林
单位｜追一科技
研究方向｜NLP、神经网络
在 NLP 中，我们经常要去比较两个句子的相似度，其标准方法是想办法将句子编码为固定大小的向量，然后用某种几何距离（欧氏距离、cos 距离等）作为相似度。这种方案相对来说比较简单，而且检索起来比较快速，一定程度上能满足工程需求。
此外，还可以直接比较两个变长序列的差异性，比如编辑距离，它通过动态规划找出两个字符串之间的最优映射，然后算不匹配程度；现在我们还有 Word2Vec、BERT 等工具，可以将文本序列转换为对应的向量序列，所以也可以直接比较这两个向量序列的差异，而不是先将向量序列弄成单个向量。
后一种方案速度相对慢一点，但可以比较得更精细一些，并且理论比较优雅，所以也有一定的应用场景。本文就来简单介绍一下属于后者的两个相似度指标，分别简称为 WMD、WRD 。
Earth Mover's Distance
本文要介绍的两个指标都是以 Wasserstein 距离为基础，这里会先对它做一个简单的介绍，相关内容也可以阅读笔者旧作从 Wasserstein 距离、对偶理论到WGAN。
Wasserstein 距离也被形象地称之为 “推土机距离”（Earth Mover's Distance ， EMD），因为它可以用一个“推土”的例子来通俗地表达它的含义。
1.1 最优传输
假设在位置处我们分布有那么多的土，简单起见我们设土的总数量为 1 ，即，现在要将土推到位置上，每处的量为，而从 i 推到 j 的成本为，求成本最低的方案以及对应的最低成本。
这其实就是一个经典的最优传输问题。我们将最优方案表示为，表示这个方案中要从 i 中把数量的土推到 j 处，很明显我们有约束：

本文插图

所以我们的优化问题是：

本文插图

1.2 参考实现
看上去复杂，但认真观察下就能发现上式其实就是一个线性规划问题——在线性约束下求线性函数的极值。而 scipy就自带了线性规划求解函数linprog ，因此我们可以利用它实现求 Wasserstein 距离的函数：
importnumpy asnp
fromscipy.optimize importlinprog
defwasserstein_distance(p, q, D):
"""通过线性规划求Wasserstein距离
p.shape=[m], q.shape=[n], D.shape=[m, n]
p.sum=1, q.sum=1, p∈[0,1], q∈[0,1]
"""
A_eq = []
fori inrange(len(p)):
A = np.zeros_like(D)
A[i, :] = 1
A_eq.append(A.reshape( -1))
fori inrange(len(q)):
A = np.zeros_like(D)
A[:, i] = 1
A_eq.append(A.reshape( -1))
A_eq = np.array(A_eq)
b_eq = np.concatenate([p, q])
D = D.reshape( -1)
result = linprog(D, A_eq=A_eq[: -1], b_eq=b_eq[: -1])
returnresult.fun
读者可以留意到，在传入约束的时候用的是A_eq=A_eq[:-1], b_eq=b_eq[:-1] ，也就是去掉了最后一个约束。
这是因为，所以（1）中的等式约束本身存在冗余，而实际计算中有时候可能存在浮点误差，导致冗余的约束之间相互矛盾，从而使得线性规划的求解失败，所以干脆去掉最后一个冗余的约束，减少出错的可能性。
Word Mover's Distance
很明显， Wasserstein 距离适合于用来计算两个不同长度的序列的差异性，而我们要做语义相似度的时候，两个句子通常也是不同长度的，刚好对应这个特性，因此很自然地就会联想到 Wasserstein 距离也许可以用来比较句子相似度，而首次进行这个尝试的是论文 From Word Embeddings To Document Distances[1] 。

PaperWeekly从EMD、WMD到WRD：文本向量序列的相似度计算

推荐阅读

射雕英雄传郭靖杨康结拜,杨康与郭靖什么关系-

人民网：国家邮政局：构建国内和海外的防疫物资寄递运输“绿色通道”

星座听语|许久不见，思之如狂，再遇真爱，桃花重启，扑进旧爱怀里，8月

看完复联2后，为啥那人拿得起雷神的biubiu 锤。?

小志扒娱乐|陈赫为什么选择张子萱，瞧瞧她穿少女裙的漫画腿，男生谁抵抗

马思纯@马思纯最新照惹人心疼，穿晕染T恤宽松八分裤，身材微胖被人搀扶

中国质量新闻网|市场监管总局发布湖北省黄冈市蓝天旧机动车交易市场有限公司等3家公司达成并实施垄断协议案行政处罚决定书

女性养生|秋分将至，最该喝这汤，营养极高，女性要多喝，补血润燥体质变好

未婚少女能做妇科检查吗？那层膜会不会破？建议看一看

梦见他是什么意思亲人死了老是梦见他是什么意思

基于大数据的企业战略管理：理论基础与市场机遇探究（二）

可不可以用高考成绩申请密歇根大学安娜堡分校

|即将追平普拉蒂尼！吉鲁国家队生涯99场打进40球，位列队史第三

动点汽车▲沃尔沃汽车通过Zenuity加快自动驾驶技术发展

岳飞的好朋友有谁?岳飞如何看待诸葛亮

[全线]北京段有望全线通水！2020年永定河下游生态补水全面启动

App|群晖新版Drive五个好用功能：用NAS一个APP就够了！

探馆｜穿街走巷代步利器！标致e2008亮相海口车展

番禺台▲回国一查都感染了，他们在疫情高发国仍不戴口罩出门玩耍

北京日报|熔喷布供需矛盾有效缓解，中石化从统一调配转为自主销售