另外网页B越重要,它所引用的页面能分配到的PageRank值就越多,网页A的PageRank值也就越高越重要 。
其实这个算法说起来非常简单:比如写公众号,有大V转载就相当于引用了,越多其他公众号转载,说明你的公众号内容质量越高 。
文章插图
PageRank算法也存在一定的问题,比如对新页面不友好,新页面暂时没有被大量引用,因此PageRank值很低,并且PageRank算法强调网页之间的引用关系,对网页本身的主题内容可能重视程度不够,也就是所谓的主题漂流问题 。
与PageRank算法类似于的还有一些其他算法来弥补主题关联问题,包括:HillTop算法、Topic-Sensitive PageRank算法、HITS算法等,本文就不再展开了 。
6.3 网页反作弊和seo搜索引擎也存在二八原则,头部的网页占据了大量的点击流量,也意味着巨大的商业价值 。
这里就要提到SEO,先看下百度百科对SEO的定义:
搜索引擎优化又称为SEO,即Search Engine Optimization,它是一种通过分析搜索引擎的排名规律,了解各种搜索引擎怎样进行搜索、怎样抓取互联网页面、怎样确定特定关键词的搜索结果排名的技术 。
搜索引擎采用易于被搜索引用的手段,对网站进行有针对性的优化,提高网站在搜索引擎中的自然排名,吸引更多的用户访问网站,提高网站的访问量,提高网站的销售能力和宣传能力,从而提升网站的品牌效应 。道高一尺魔高一丈,只有魔法可以打败魔法 。
文章插图
网页反作弊是搜索引擎需要解决的重要问题,常见的有内容反作弊、链接分析反作弊等 。
文章插图
- 网页内容作弊
比如在网页内容中增加大量重复热词、在标题/摘要等重要位置增加热度词、html标签作弊等等,比如在一篇主题无联系的网页中增加大量"隐秘的角落"热度词、增加<strong> 等强调性html标签 。
- 链接分析作弊
构建大量相互引用的页面集合、购买高排名友链等等,就是搞很多可以指向自己网页的其他网页,从而构成一个作弊引用链条 。
6.4 用户搜索意图理解用户模块直接和用户交互,接收用户的搜索词,准确理解用户的搜索意图非常重要 。
实际上用户的输入是五花八门的,偏口语化,甚至有拼写错误、并且不同背景的用户对同一个检索词的需求不一样、无争议检索词的使用目的也不一样 。
文章插图
- 检索词为:美食宫保鸡丁
这个检索词算是比较优质了,但是仍然不明确是想找饭店去吃宫保鸡丁?还是想找宫保鸡丁的菜谱?还是想查宫保鸡丁的历史起源?还是宫保鸡丁的相关评价?所以会出现很多情况 。
- 检索词为:你说我中午迟点啥呢?
口语化检索词并且存在错别字,其中可能涉及词语纠错、同义词转换等等,才能找到准确的检索词,进而明确检索意图,召回网页 。
文章插图
全文总结搜索引擎是个非常复杂的系统工程,涉及非常多的算法和工程实现,本文旨在和大家一起简单梳理搜索引擎的基本组成和运行原理,算是科普文章了 。
搜索引擎中每一个模块做好都不容易,也是互联网产品中技术含金量的典型代表,深挖一个模块都受益匪浅 。
推荐阅读
- 和平精英|张雨绮素颜教护肤!背后满墙名牌包包太抢镜,一个杯子价格近2万
- |背景调查,招聘选拔人才的关键环节,如何系统策划与高效实施?
- 月球的另一面有没有外星人 外星人藏在月球背面是真的吗
- 人类为什么探测月球 中国探测月球背面
- 外星人来自月球背面 宇航员在太空发现外星人
- 月球背面与月球正面相比 月球的正面和背面
- 蛇的抗毒血清是通用的吗
- 电脑显卡的背板只是为了好看?它的用处远没有你想的那么简单
- 蛇的抗毒血清是通用的吗 在制备蛇毒抗毒素血清时
- 纽扣电池cr2030和cr2032通用吗,纽扣电池cr2032和cr1620可以通用吗?