作者:Pavel Kordík导读
编译:ronghuaiyang
一般来说,搜索是非个性化的,不过如果和推荐系统组合起来,也会有意想不到的效果 。寻找正确的信息总是很困难的 。在不久之前,文档还是存放在实际的物理仓库中,要找到相关的文档是非常困难的 。
文章插图
当文档可以通过在线存储库访问时,索引文档的数量开始超出物理存储的限制 。电子商务网站提供的产品数量或通过在线流媒体服务提供的内容数量亦是如此 。
用户倾向于在一个地方找到所有东西,他们中的大多数人喜欢从更相关的选择中进行挑选,所以服务提供商需要适应这种需求 。一些全球性的服务(如谷歌、亚马逊、Netflix、Spotify),在飞快的增长,用户几乎在上面可以找到任何东西 。推动它们在全球占据主导地位的最强大工具之一,是它们以机器学习技术为动力的高度先进的个性化技术 。这些技术就是推荐系统和个性化搜索 。
文章插图
推荐系统使用用户与物品的交互的历史来为用户生成最相关物品的排序列表 。搜索引擎根据与给定查询的相似度对内容进行排序,而不考虑用户的历史记录 。
推荐系统使用户能够在线发现相关文档、产品或内容 。通常,用户可能最喜欢的物品隐藏在数百万个其他物品中 。用户无法通过搜索引擎直接找到这些商品,因为他们很少知道它们的标签,甚至可能不知道它们的存在 。
另一方面,有时用户需要寻找一个特定的物品,并愿意通过表达他们的需求来帮助在线系统,以减少可能被推荐的物品的数量 。
文章插图
有几种方法可以帮助用户表达他们的需求 。用户体验在这里扮演着非常重要的角色 。很多用户通过他们的手机访问在线服务,但显示兴趣的能力有限 。在线服务应该专注于利用所有可用信息过滤可能的搜索结果 。
用户地理位置可以显著缩小可能的搜索和推荐结果 。例如,在Recombee中,您可以选择推荐只包含距离用户位置一定范围内的物品 。另一种方法是,当某个物品在地理位置上更接近某个用户时,你可以提高该物品被推荐的可能性 。
文章插图
【个性化搜索的介绍,推荐和搜索的强强结合】用户希望使用特定的标签或类别过滤掉可能的搜索结果 。它通常只需要一次点击就可以过滤除特定类别之外的所有物品(例如,除了科幻小说之外的所有文章) 。应该让用户尽可能轻松地表达他们的兴趣 。
一定比例的用户希望可以使用一个查询文本(即使只是几个字符)的方式来缩小搜索范围 。他们的目的可能是找到一个特定类别的商品,或者通过他们知道的正在寻找的商品的标签直接来搜索一个特定的商品 。他们输入的文本被称为a user query,这篇博客文章讨论了如何利用一个query来帮助用户找到她/他要找的东西 。这篇博客文章从理论部分开始,然后是实践部分 。
信息检索为给定文本query寻找合适物品的问题作为信息检索(information retrieval, IR)已经研究了几十年 。当用户向系统输入一个query时,信息检索过程就开始了 。query是信息需求的正式形式,例如web搜索引擎中的搜索字符串 。在信息检索中,query不能唯一地标识集合中的单个物品(文档) 。相反,有几个物品能与query匹配,可能具有不同程度的相关性 。
传统的方法试图将query与文档匹配,并根据相似度获得相关性 。机器学习方法通过从训练数据构建一个排序模型来解决IR问题 。这样的训练数据(对于搜索引擎来说)是什么样的呢?通常,它是对每个query进行“适当”排序的文档的集合 。
以下是在相关博客中描述的IR系统方案:
文章插图
经典的IR系统不是个性化的,它只是为一个query返回大部分相关的文档 。机器学习通常是不需要的,因为系统遵循预定义的过程(如TF-IDF相似性查找) 。
该系统通过匹配query和文档并计算它们的相似度来工作 。大多数相似的文档都是按照与query的相似度排序返回的 。相似度是计算出来的,比如TF-IDF向量的余弦相似度 。
推荐阅读
- 2020年最好的.NET开发工具
- 为什么面试互联网公司的都在刷Leetcode? 正确打开方式是什么?
- 作为程序员的你,这10款在线编辑器,你用过哪一个?
- 不改一行代码,让你的web应用支持https协议
- 冬天喝两款保健茶,保健茶的种类介绍
- 如何在今日头条上开启挣钱之路,适合新手的升级攻略,倾囊相授
- 茶叶美食介绍,抹茶叶形饼的做法
- 我用这个方法,半小时给C盘清理出30G空间!C盘飘红的快来试试
- 冲泡优质黑茶的方法,椰仙苦丁茶的冲泡方法
- 解决网络连接缓慢的故障