一、背景
以深度学习为代表的 AI 技术近年来在搜索推荐场景中得到广泛的应用,对用户 Query 和内容侧的理解不断深入,用户体验得到显著提升 。
搜索是一种典型的 AI 应用,关键技术包括 Query 分析 、内容理解、文本相关性计算以及排序等 。从统计机器学习到深度学习,算法结合大数据将搜索引擎精度不断的提升 。本次分享以部分技术为例探讨小米移动搜索中应用的 AI 技术 。
文章插图
小米的移动搜索主要有两个场景,MIUI 的主搜索入口,以及浏览器中搜索提示 。小米的移动搜索针对移动端搜索的特点,致力于为用户提供精准便捷的体验 。实现了应用、内容、服务的直达 。例如搜索视频时,直接够唤起爱奇艺/腾讯视频等 App 观看特定选集 。
覆盖小米体系和外部合作方内容,以下是部分合作垂类内容提供方:
文章插图
【小米移动搜索中的AI技术】今天分享的技术内容分几个部分:
- 文本相关性
- 意图识别和词权重
- 点击模型排序
文章插图
最基本的搜索架构大体上也都有这样几个部分,百度、搜狗、神马、360等各大搜索厂商采用的基本架构都是类似的,包括:
- 前端模块
- Query 分析模块,负责计算意图/词权重/同义词和 Query 改写等 。
- 取得 Query 分析结果后,发送请求到各索引中进行结果召回 。包括关键词召回、向量召回等 。通常还会在这个阶段完成低级别特征的计算和粗排 。
- 将上述结果进行高阶特征生成和重排序(精排),排序后对结果再做一些处理逻辑后返回给前端 。
二、文本相关性计算
问答和新闻 Query 场景下,文本相关性计算的精度对搜索体验的影响显著 。
2.1 问题的定义:以查询 Q 和文档 D 的标题为例,计算相关性分数 。
2.2 挑战:缺词,多词,逆序,临近,同义词…
中文的文本相关性计算是一个比较复杂的问题 。
例如:
文章插图
举一个简单的例子,第一个问答中的两种表述存在差异;第二个例子中,在句子中插入不同的字符,对语义的影响也存在不同 。
我们设计了两个基本模型解决文本相关性计算的问题,最终使用两个模型融合的结果 。
2.3 相关性 GBDT 模型
首先介绍使用 GBDT 模型计算 query 和 document 文本相关性 。通过特征工程从人工标注数据中进行学习 。有如下几大类特征:
文章插图
在图中的样本打分为1的样本,query 中的核心词 " 33集 " 在查询结果中没有命中,核心词未命中是模型中很强的一个特征 。这两句话在浅层语义上差异也很大 。在 " 锦绣未央:唐嫣受伤 " 中主体有 " 锦绣未央 " 和 " 唐嫣 ",而在 query " 锦绣未央33集 " 中主体是 " 锦绣未央 " 和 " 33集 "。打分为2的样本,主体葱爆海参对海参做了限定,但没有超出海参的范畴 。
在匹配特征设计中需要分析命中词权重、是否命中同义词、未匹配词是否为停动词等,例如 query 中的词没有在 document 中出现 。在上图中标注3分的例子中,去掉不重要词 " : ",整个 query 依然是连续命中,该项特征得分就较高 。还有就是同义词的处理,这里需要同构离线挖掘同义词的表 。类似的特征还有编辑距离,逆序对的数量,考虑词权重的匹配等等 。
相关性计算还有一种方法是使用用户行为日志,利用用户更多点击和未点击文档构建训练样本对 。与经典的基于关键词匹配相关性算法相比,DNN 模型极大的提高了语义相关性的判断范围和准确性,对于长尾查询的效果也更好 。DNN 模型使用的训练样本数据量比较大,我们的场景中目前用到亿级别样本 。下图以 C-DSSM 为例 ( 基于微软的论文 )。中文与英文相比处理有一点差异,需要先分词之后是取单字和词的 embedding,另外这里推荐 trainable 的 embedding。模型能够学习出查询与文档的量化表示,并计算相似度 。我们还做了一些改进包括输入层增加额外信息 。
推荐阅读
- 支持ChargerTurbo快充,小米首款PD充电器+充电宝新物种深度拆解
- 小米有品上架599元投影仪:2万小时寿命 可投120英寸
- 最高投标总限价10亿元 中国移动5G上网日志留存系统招标
- 智能电视:荣耀、小米战火彻底燃烧
- “5G下深矿”山西多家煤企与中国移动签署5G战略合作协议
- 如何用Python爬取移动端数据
- 16条微信小程序推广渠道
- 仅需79元起!小米路由器迎来618大优惠,不买就亏大了
- WWDC 2020开幕前夕苹果改版App Store Connect 优化移动端支持
- 一 5G空闲态移动性算法-SA篇