谷歌图片搜索怎样根据汉明距离进行的检索

昨天看到这个题目的时候觉得还真有难度,今天早上起来突然就反应过来了,至少存在一个可能的非常简单的做法。哪里需要逐个比较,所有的图片都可以多维化为一个点,然后给定一个预设的距离作为阈值,用这个值在给定的维度空间上以检索对象为球心画一个球,就可以得出每个维度的上下限范围了,然后不就可以检索了。当然具体做法有很多可以优化的地方,但基本思路应该就是这样了。==补充==我不知道题目里面的汉明距离云云是外界的猜测(这是计算相似度的一般思路)还是google自己发表的技术说明,如果这是google自己发表的说明的话(说明汉明距离在这个问题上的确是有效的),那可以进一步的假设以下几点:汉明距离和维度空间上的几何距离显然是有区别的,但或者可以从数学上给出一个(近似)变换的公式,或者可以从统计上给出一个近似变换的公式,后者对google来说应该比较容易做到维度噩梦是必须考虑的问题,因此即使将图片化为n维的点,在实际检索的时候,可能n维空间上的球体并不能起到有效过滤的作用,实际上我在实际工作中也遇到过类似的问题,最终的解决办法也无非是减维而已,抽取最重要(过滤度最高)的维度重构一个m(m〈〈n)维的空间进行检索。在初步过滤之后,也许可以通过逐个计算汉明距离的办法来得出精确的相似度,或者根本不需要再计算汉明距离了,直接用几何距离作为相似度也是可以接受的。基于大量统计数据的情况下,针对上诉算法应该可以得到很多优化参数。
■网友
http://www.wwwconference.org/www2007/papers/paper215.pdf这个吧?分 table


    推荐阅读