为了搜索结果能排更前面,词句越来越散乱,越来越散,搜索排序算法怎样来应对这种趋势?
不光是排序算法,还涉及到检索算法已经数据存储方式。如果有后台知识库的话,定义知识库的时候可以使用\u0026#39;互斥\u0026#39;(disjoint?)。比如\u0026#39;耐克\u0026#39;和\u0026#39;安踏\u0026#39;是\u0026#39;品牌(鞋)\u0026#39;的下位类,两类是互斥的。那么一个实例就不能既是\u0026#39;耐克\u0026#39;又是\u0026#39;安踏\u0026#39;。对于淘宝来说,我觉得建立大型知识库应该挺难的,现在应该也没有。。。就是说,对于已存在的数据,把它们map到知识库上是不现实的,同时效率不高但是,一个可以实现的方法是将知识库应用到Query上,假如你搜索\u0026#39;耐克\u0026#39;,那么实际上搜索引擎搜索的是\u0026#39;耐克 and not 安踏\u0026#39;。这就是传说中的query rewriting (我怎么觉得好像在IR里没人提过?)效率肯定会下降,但是我觉得对于淘宝这样的公司来说,这点儿效率的下降影响不大,不会影响到用户体验。而且在SQL上层面上进行优化是一个比较熟悉的话题。。。或者单独从题主的问题出发,识别出来一个句子\u0026#39;没有语法没有结构\u0026#39;,从而降低这个宝贝的排名。判断一个句子\u0026#39;没有语法没有结构\u0026#39;并不是很难,有很多方法。比如建立一个entity-based model,比如用一个chunker然后训练一下看看什么样的结构是普遍的。这就算一个单独的模块,怎么和之前的排序算法合并还是个问题不过。。。[不过语文不好的同学你就不让人家活了么!
■网友
怎么纠正啊?降低权值或者不对标题进行索引呗(当然那又得加「举报商品不符描述」功能)。以补充说明的例子来说,前一款产品的关键词无非就是 「2013年夏季」、「薄款」、「Nike / 耐克」、「纯棉」、「运动长裤」。做个分类系统就好了,世界上的商品无非就那么多个分类,根据每个分类再区分几个主要属性(品牌、款式、面料等),工作量也不是太大的事。不难发现电商们都在做这件事。
■网友
有时间多看看百度分词原理,熟悉百度对于关键词的分词组合,至于要搜索引擎结果要排在前面更多跟本页面结果的综合数据有关,以及网站的本页面权重是否高,是否更匹配
■网友
title已经做了一个33个汉字以内的限制。对于淘宝的应用场景,文字具体内容的可阅读性如何对消费者并非特别重要。图片要更加重要。所以这是个问题,但不是个很大的问题。品牌词的堆砌确实是个用户伤害,同一款商品不会有两个品牌的。但有些title又是这样写:【华为荣耀XXXX秒杀红米】又不能说这样的写法是非法的。规定得太严,title就没有个性,从而没有吸引力了。把中文分析做得更精细一些,包含品牌词知识库的建设,确实可以防止一些品牌词堆砌的现象。至于title可阅读性,用标准的概率语言模型就可以判定了。
■网友
有点堆砌关键词的,一点用户体验都没,可能现在对搜索还有点用,以后肯定是不行的。
■网友
这种伤害用户体验完全只顾搜索机制的做法只会带来负面影响,问问你自己,你看见这么长一串文字有没有点击的欲望?淘宝官方难道不会针对这种标题大量出现后采取一定措施吗?
推荐阅读
- 电池|享域混动 为了满足用户需求 优惠1.5万
- python 爬虫,咋获得输入验证码之后的搜索结果
- 汽车知识|为了配置入手了威兰达,车主:三大件不输宝马X1,隔音有点差!
- |为了人气这么拼?千万网红钟婷为了流量,直接挂掉自己眉毛
- 为了验证流量不清零,有多少人会像我一样赶在十月底把流量充满
- 趣头条|为了家人提迈锐宝XL,特别有面子,你们说我买对了吗?
- 吴彦祖|为了新片暴露发际线,46岁的吴彦祖,“过气”了吗?
- BLOX|BLOX 改装集-奥迪S4,优质的保养是为了性能更好的发挥
- 江疏影|女星为了美有多拼:江疏影拿暖手宝走红毯,鞠婧祎零下6℃穿破洞
- 雷克萨斯|为了吸引年轻人买单,车企都做了哪些细节设计,哪一个打动你?
