文章插图
来源 | 后端技术指南针
头图 | 图虫
文章插图
写在前面今天准备和盆友们一起学习下关于通用搜索引擎的一些技术点 。
鉴于搜索引擎内容非常多,每一部分都够写好几篇文章的所以本文只是抛砖引玉,深入挖掘还得老铁们亲力亲为 。
通过本文你将对通用搜索引擎的基本原理和组成有一个较为清晰的认识,用心读完,肯定有所收获!
废话不说,各位抓紧上车,冲鸭!
文章插图
初识搜索引擎
2.1 搜索引擎分类搜索引擎根据其使用场景和规模,可以简单分为两大类:
- 通用搜索引擎
文章插图
- 垂直搜索引擎
文章插图
两类搜索引擎虽然数据规模和数据特征不一样,但都是为了填平用户和海量信息之间的鸿沟 。
文章插图
2.2 搜索和推荐搜索和推荐经常被相提并论,但是二者存在一些区别和联系 。
- 共同点
宏观上来说,搜索和推荐都是为了解决用户和信息之间的隔离问题,给用户有用的/需要的/喜欢的信息 。
- 区别点
搜索一般是用户主动触发,按照自己的意图进行检索,推荐一般是系统主动推送,让用户看到可能感兴趣的信息 。
文章插图
2.3 搜索引擎评价标准我们每天都和搜索引擎打交道,评价一个搜索引擎的好坏可简单概括为:精准性、时效性、响应速度、权威性等 。
换句话说,搜索引擎懂得用户真正想要找什么,可以快速准确地展示出来,对于一些热点突发信息也可以及时收录展示,就能很好地博得用户 。
这个目标需要搜索引擎多个模块协作处理,是个复杂的系统工程,并非易事 。
文章插图
通用搜索引擎的整体概览
3.1 搜索引擎的基本流程大白尝试用朴实的语言来整体表达下,通用搜索引擎大致是怎么工作的:
1. 网络蜘蛛爬虫每天不辞辛苦地收录网页,然后存储起来,这样各个站点的页面就有了一份份镜像,这个规模是百亿/千亿级的 。
文章插图
2. 单纯地镜像也不能直接用,需要加工处理,把一个个网页进行分词,建立搜索词和网页的对应关系,这样用户搜索某个东西时,才会拿到很多相关的网页 。
文章插图
3. 比如"搜索隐秘的角落"可能会有100个相关网页被找到,但是网页和检索词的关联性肯定有强有弱,因此还需要进行网页的排序,排序策略有很多,最终把优质的网页排在前面展示给用户 。
文章插图
用户看到相关结果之后,进行点击或者跳过,搜索引擎根据用户的相关动作进行调整,实现整个闭环过程 。
4. 为了能更好地理解用户的真实用途,需要进行检索词的意图理解、词条切分、同义词替换、语法纠错等处理,再根据这些检索词去获取数据,为用户找到心中所想的网页 。
比如检索词为"老鹰",可能是自然界的老鹰,也可能是NBA的一只球队:
文章插图
3.2 搜索引擎的基本组成我们从整体简单看下基本组成以及各个模块的主要功能:
文章插图
- 网络爬虫模块
搜索引擎中的网络爬虫就是网页的搬运工,负责将互联网上允许被抓取的网页进行下载,如果把搜索引擎看作一家餐厅,网络爬虫模块就是餐厅的采购员 。
- 和平精英|张雨绮素颜教护肤!背后满墙名牌包包太抢镜,一个杯子价格近2万
- |背景调查,招聘选拔人才的关键环节,如何系统策划与高效实施?
- 月球的另一面有没有外星人 外星人藏在月球背面是真的吗
- 人类为什么探测月球 中国探测月球背面
- 外星人来自月球背面 宇航员在太空发现外星人
- 月球背面与月球正面相比 月球的正面和背面
- 蛇的抗毒血清是通用的吗
- 电脑显卡的背板只是为了好看?它的用处远没有你想的那么简单
- 蛇的抗毒血清是通用的吗 在制备蛇毒抗毒素血清时
- 纽扣电池cr2030和cr2032通用吗,纽扣电池cr2032和cr1620可以通用吗?