基于协同矩阵分解的多模态数据的哈希方法( 二 ) _哈希

文章插图

图 1. 三类方法的区别
2 基于协同矩阵分解的哈希方法在本节中，我们将介绍我们的多模态数据哈希方法，即基于协同矩阵分解的哈希方法(CMFH) 。在不失通用性的前提下，我们首先介绍双模态情况下的 CMFH，因为它简单易懂。

文章插图

图 2. CMFH 的框架
如图 2 所示，所提出的 CMFH 包括两个阶段。一个是离线哈希函数学习和数据库生成，另一个是在线编码和搜索。在离线阶段，CMFH 学习统一的哈希码 Y = [y1 , ..., yn ] 。对于样本外的实例，CMFH 学习第 t 个视图的特定视图哈希函数 ft 。与之前的工作类似，我们只考虑了以下形式的仿射

文章插图

我们可以通过矩阵分解从源数据集中学习潜在的语义特征。我们假定：
1．相互关联的数据应具有相同的潜在语义表示。
2．哈希码可以从潜在语义表示中学习
本方法的优化问题为非凸问题，有五个矩阵变量 U1，U2，P1，P2，V，幸运的是，在固定其他四个矩阵变量的情况下，对五个矩阵变量中的任何一个都是凸的。因此，该优化问题可以反复迭代求解，直到收敛为止。该方法可总结为算法 1 。

文章插图

3 实验我们在三个不同的数据集上进行了实验：Wiki、NUS-WIDE 和 MIRFLICKR-25000 。我们将所提出的 CMFH 与几种最先进的方法进行了比较，实验结果表明，CMFH 的性能明显优于基线方法。
3.1 实验设置WiKi 。它是从维基百科中收集的 2,866 个图像-文本对。每幅图像由 128 维的 SIFT 直方图表示，每篇文字由 10 维的主题向量表示。它包含 10 个语义类，每对图像都被标记为其中之一。我们将 75%的对子作为训练集，其余 25%作为查询集。
NUS-WIDE 。它是一个真实世界的网络图像数据库，包含 81 个概念和 269,648 张带标签的图像。我们对十个最大的概念和相应的 186,577 张图片进行了讲解。图像由 500 维的 SIFT 直方图表示，文本由最常见的 1000 个标签的索引向量表示。每对图像由 10 个概念中的至少一个来注释。如果它们至少共享一个概念，则认为它们是相似的。我们使用 99%的数据作为训练集，其余 1%作为查询集。
MIRFLICKR-25000 。它由 25000 张图像组成，每张图像都被一些标签注释为 38 个唯一的标签。图像由 100 维度的 SIFT 直方图描述，主要编码表面纹理，144 维度的 CEDD 特征主要是颜色和边缘直接性。由于它们在纹理空间上相似，而在颜色空间上不同，我们选择它们来模拟跨视角环境。我们将 75%的对子作为训练集，其余 25%作为查询集。
CMFH 与五种最先进的散列 55566 方法进行了比较。LSH , CVH , IMH , CMSSH 和 CHMIS .它们可以分为三种类型。LSH 是单视图哈希方法，而 CVH、IMH 和 CMH 是跨视图哈希方法，其中学习特定视图的哈希码，CHMIS 是跨视图方法，学习综合哈希码。我们仔细调整了它们的参数，并报告了它们的最佳结果。
3.2 实验结果表 1. mAP 对比，View1 为图像或 CEDD，View2 为文本或 SIFT

文章插图

表 1 报告了 CMFH 和四种基线方法的 mAP 值。图 4 绘制了精度-召回曲线。我们可以观察到，CMFH 在两个不同代码长度的任务上都显著优于所有基线方法，这验证了 CMFH 的有效性。

文章插图

图 4. 不同代码长度的 PR 曲线
此外，CMFH 在代码较长的情况下表现更好。这是合理的，因为较长的哈希码可以编码更多的信息，因此可以提高 mAP 表现。然而，我们可以观察到几种方法的 PR 曲线看起来很奇怪，例如 CVH 在 64 位时的 PR 曲线在实验中表现得像随机猜测。实际上，所有的基线方法都是通过特征值分解来解决的，并且对每个位子都有正交约束，所以每个位子之间没有相关性。前几个投影方向可能具有较高的方差，其对应的哈希位可以具有相当的判别能力，这对相似性搜索相当有用。但是，随着码长的增加，哈希码将以方差很低的位为主。其实，由于方差太低，低位的比特是没有意义的，也是模棱两可的。所以这些不加区分的哈希位可能会导致该方法在实验中进行随机猜测。
表 1 报告了 CMFH 和四种基线方法的 mAP 值。如上所述，我们随机选取 5000 个实例作为训练集来学习哈希函数。并将学习到的哈希函数扩展到整个数据库中。CMFH 在两个任务上都显著优于所有基线方法，不同的代码长度。