深入搜索引擎原理( 六 ) _搜索引擎

文章插图

确定切分维度，这里维度的选取顺序是数据在这个维度方法最大的维度优先。一个直接的理解就是，数据分散越开的维度，我们优先切分。
切分点的选这个维度最中间的点。
递归进行步骤1，2，我们可以设置一个阈值，点的数目少于多少后就不再切分，直到所有的点都切分好停止。

文章插图

BitSet 过滤二进制处理，通过BKD-Tree查找到的docID是无序的，所以要么先转成有序的docID数组，或者构造BitSet，然后再与其他结果合并。
IndexSorting
IndexSorting是一种预排序，在ES6.0之后才有，与查询时的Sort不同，IndexSorting是一种预排序，即数据预先按照某种方式进行排序，它是Index的一个设置，不可更改。
一个Segment中的每个文档，都会被分配一个docID，docID从0开始，顺序分配。在没有IndexSorting时，docID是按照文档写入的顺序进行分配的，在设置了IndexSorting之后，docID的顺序就与IndexSorting的顺序一致。
举个例子来说，假如文档中有一列为Timestamp，我们在IndexSorting中设置按照Timestamp逆序排序，那么在一个Segment内，docID越小，对应的文档的Timestamp越大，即按照Timestamp从大到小的顺序分配docID 。
IndexSorting 之所以可以优化性能，是因为可以提前中断以及提高数据压缩率，但是他并不能满足所有的场景，比如使用非预排序字段排序，还会损耗写入时的性能。
搜索引擎正是靠优秀的理论加极致的优化，做到查询性能上的极致，后续会再结合源码分析压缩算法如何做到极致的性能优化的。
未完待续~
附：进一步阅读
http://lucene.Apache.org/
https://wiki.apache.org/lucene-JAVA/FrontPage
https://zhuanlan.zhihu.com/p/35814539
http://www.runoob.com/java/java-bitset-class.html
https://www.cnblogs.com/skycore/p/5093257.html
https://www.cnblogs.com/LBSer/p/4119841.html
https://blog.csdn.net/zhufenglonglove/article/details/51700898
https://www.jianshu.com/p/1e498888f505
http://www.nosqlnotes.com/technotes/searchengine/lucene-invertedindex/
https://www.jianshu.com/p/69d56f9c0576
作者：yhzhtk

【深入搜索引擎原理】

深入搜索引擎原理( 六 )

推荐阅读

可爱的小冉|两周9000万美元！《原神》吸金势不可挡

排头军史官方|俄代表果断拒绝，俄罗斯也要“退群”？联合国亲自出面相劝也没用

不同人生阶段，一个人过生日怎么样才能更有意义

敦煌研究院“牵手”四川博物院聚力文物保护

小腹科技|如今亏损60亿，车主：还我买车血汗钱，曾是车圈“百兽之王”

黑猩猩|美国发现一基因变异猩猩，进化出了与人类相似的手指，它会持续进化？

星座小魔仙呀|12星座真生气与假生气的区别是什么？天蝎座让人看不出！

这10样老式糕点，80、90后大多都吃过，00后吃过几种

|在职场上没有人能够一直保持着一种状态

新鲜事儿|姚晨陶虹俞飞鸿太美了吧！谁说中年女星没戏可演？

茶香闻哪里怎么闻茶香,心中的仪式感办公室泡杯茶

崇祯为什么要砍九公主手臂?崇祯砍了女儿的胳膊

『搜狐新闻』点焊机器人工作站步增机能及电流控制方式-苏州安嘉

求问！为啥平时很健康的宝宝（三四岁）因为高烧不退，完全昏迷住进重症icu一天多还没醒来

『NBA官网』科尔谈97年总决赛制胜球：拥有这样的时刻真棒

并拿武磊举例，20岁新星被批，称西班牙人降级了，你呢

核潜艇|美核武器库迎来噩耗！主要供应商终止合同，白宫：东方某国得逞了

月经期间吃什么水果月经期间吃什么水果能促进瘀血排出

红刊财经松井股份：致力于成为新型功能涂层材料的领导者

【王者荣耀】王者荣耀: 战令宝箱怎么抽? 官方早已给出答案, 这样概率最大