搜索引擎抓取网站内容的原理

对于刚刚接触seo的小白来说 , 都会经历这样的迷茫 , 一心想把网站优化到百度首页但又不知该怎么做?其实很简单 , 知己知彼方能百战不殆 , 既然我们要想把网站优化到首页 , 首先要先了解搜索引擎的习惯 , 也就是它的工作原理 。...

搜索引擎抓取网站内容的原理

文章插图
抓取
搜索引擎后台会派出百度蜘蛛 , 全天候在海量数据里识别并抓取内容;再对内容进行筛选过滤 , 去掉低质量的内容;将筛选后合格的内容 , 存储到一个临时的索引库中 , 进行分类存储 。
百度蜘蛛的抓取方式分为:深度抓取以及广度抓取 。
深度抓取:百度蜘蛛会跟着一个网页中的链接一条一条追下去 , 有点顺藤摸瓜的意思 。
广度抓取:百度蜘蛛会把一个页面的全部链接全部抓取 。
一旦用户在前台触发检索后 , 搜索引擎再根据用户的关键词在检索库中挑选内容 , 推测用户搜索需求 , 将与搜索结果相关的、能满足用户搜索目标的内容 , 依次排序展示到用户面前 。
过滤
物品有质量好坏之分 , 我们都喜欢质量好的 。百度蜘蛛也是 , 要知道搜索引擎的终极目的是为满足用户的搜索需求 , 为了保证搜索结果的相关性和丰富性 , 会将那些低质量的内容筛选出来抛弃掉 , 哪些内容属于这个范围呢?
低质量:语句不通 , 下句不接上句 , 表达意思不通顺 , 这样的会把蜘蛛抓晕的 , 自然也就舍弃了 。
其次还有重复性较高的、与主题无关、满屏广告、充满死链接、时效性较差等 。
搜索引擎抓取网站内容的原理

文章插图
存储
过滤的差不多了 , 百度把它“喜欢的"都留下 。将这些数据有组织建立索引库 , 并进行分类整理 。
将经过滤的有质量内容进行提取和理解 , 进行和分类存储 , 建立一个个的目录 , 最终汇总成一个能快速调用和方便机器理解的索引库 , 为调取数据做准备 。
展示
百度将精品都存放索引库中了 , 用户在前台触发检索后 , 就会触发索引库查询 , 比如:网民通过输入关键字(例如SEO) , 百度蜘蛛就会从索引库找到与之相关的展现在网民面前 。
搜索引擎根据用户搜索意图及内容相关性等指标 , 依次展示搜索结果 。
强相关的优质内容会排在第一位 , 如果不能满足检索目标 , 用户可根据展示结果二次、三次搜索 , 搜索引擎会根据关键词 , 将展示结果进一步精准和优化排序 。

【搜索引擎抓取网站内容的原理】


    推荐阅读