光一样的少年|| 通用搜索引擎背后的技术点,图解( 四 )
特别地 , 提一下正排索引和倒排索引 , 字面上并不直观 , 其实道理并不难理解:
正排索引:具体到一篇网页有多少关键词 , 特指属于该网页本身的内容集合 , 是一个网页 。
倒排索引:一个检索关键词对应多少相关联的网页 , 也就是可备选网页集合 , 是一类网页 。
搜索引擎要展示优质的强关联网页给用户 , 并且放在靠前的位置 , 否则搜索效果将会很差 , 用户并不买账 。
事实上也是如此 , 比如搜索引擎返回了10页结果 , 每页10条 , 总结100条 , 一般用户点击到1-3页之后的网页大概率就不再点击了 , 因此排序的头部内容对于搜索结果至关重要 。
我们仍然以检索"隐秘的角落"为例 , 百度共计返回了10页 , 其中1-2页的内容是强关联的 , 是个比较不错的检索结果了:
这是早期搜索引擎常采取的方法 , 相对简单但是效果还不错 。
简单来说就是根据网页中关键词的出现频率以及出现位置作为排序依据 , 因为普遍认为:检索词出现次数越多、位置越重要 , 网页的关联性越好 , 排名越靠前 。
词频并不是单纯的统计次数 , 需要有全局观念来判断关键词的相对次数 , 这就是我们要说的TF-IDF逆文档频率 , 来看下百度百科的解释:
TF-IDF(termfrequency–inversedocumentfrequency)是一种用于信息检索与数据挖掘的常用加权技术 。
TF是词频(TermFrequency) , IDF是逆文本频率指数(InverseDocumentFrequency) 。
TF-IDF是一种统计方法 , 用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度 。
字词的重要性随着它在文件中出现的次数成正比增加 , 但同时会随着它在语料库中出现的频率成反比下降 。
举个栗子:
网页中"吃饭"这个词出现了10次 , 虽然次数很多 , 但是"吃饭"这个词过于普通 , 因为在很多其他网页都出现了 , 因此"吃饭"这个检索词的重要性就相对下降了 。
基于链接分析的排序
链接分析排序认为:网页被别的网页引用的次数越多或者越权威的网页引用 , 说明该网页质量越高 。
网页的重要程度用PageRank值来衡量 , 网页的PageRank值体现在两个方面:引用该网页其他网页个数和引用该页面的其他页面的重要程度 。
假定一个网页A被另一个网页B引用 , 网页B就将PageRank值分配给网页B所引用的网页 , 所以越多引用网页A则其PageRank值也就越高 。
另外网页B越重要 , 它所引用的页面能分配到的PageRank值就越多 , 网页A的PageRank值也就越高越重要 。
其实这个算法说起来非常简单:比如写公众号 , 有大V转载就相当于引用了 , 越多其他公众号转载 , 说明你的公众号内容质量越高 。
推荐阅读
- 科技日日说|realme真我X7全方位评测:不一样的颜值,不一样的体验!,原创
- 少年帮|纯国产“龙芯”即将来临,正式确认?中科院宣布决定
- 功夫财经|猪肉也被人卡脖子了,种猪大危机:和芯片一样
- 就是爱搞机|嫌你家音箱外观太单调?哈曼卡顿给你不一样的视觉冲击感
- 韭菜花音乐|PC一样强大,数字化验孕仪性能几乎和最初的IBM
- 理想生活实验室资讯号|S7 开箱体验:机身轻便,设计和拍摄表现一样干净友好,vivo
- 柠檬少年|一加8pro的使用开箱及初体验
- 光一样的少年|必须试试,受够了电脑弹窗广告的你
- 基因|美国发现一只基因变异的猩猩,手指已和人类一样,还能够持续进化
- 老虎|谁说只有老虎的头上才有王字,这种动物也有,而且和老虎一样凶猛