爬虫原理与数据抓取( 二 ) _爬虫原理

文章插图

但是，这些通用性搜索引擎也存在着一定的局限性：
通用搜索引擎所返回的结果都是网页，而大多情况下，网页里90%的内容对用户来说都是无用的。
不同领域、不同背景的用户往往具有不同的检索目的和需求，搜索引擎无法提供针对具体某个用户的搜索结果。
万维网数据形式的丰富和网络技术的不断发展，图片、数据库、音频、视频多媒体等不同数据大量出现，通用搜索引擎对这些文件无能为力，不能很好地发现和获取。
通用搜索引擎大多提供基于关键字的检索，难以支持根据语义信息提出的查询，无法准确理解用户的具体需求。
针对这些情况，聚焦爬虫技术得以广泛使用。
聚焦爬虫
聚焦爬虫，是"面向特定主题需求"的一种网络爬虫程序，它与通用搜索引擎爬虫的区别在于：聚焦爬虫在实施网页抓取时会对内容进行处理筛选，尽量保证只抓取与需求相关的网页信息。
而我们今后要学习的网络爬虫，就是聚焦爬虫。

爬虫原理与数据抓取( 二 )

推荐阅读

百世低调上线优鲜达，全国19省份次日达

搜狐城市-商丘|永城女子花万元隆鼻致两次修复，鼻子透光还晃动悦己整形：没问题

中国新闻网|如何保障国庆中秋假期出行安全？民航局回应

汽车说刊全新奥迪Q7上市售68.98万元起，男人梦想的大型SUV

运输合同怎么写运输合同范本格式

五本养成系文，温柔大叔X傲娇萝莉娇气软妹女主X温柔霸道男主

【老吴聊动漫】莫纱温婉美丽，灵公主神似洋娃娃1.王默2.莫纱3.白光莹4.灵公主，叶罗丽仙子化身美丽的精灵

青年|我的世界：生存土豪的炫富方式！钻石信标路灯，钻石养宠新技巧

『女神秘语专属』生肖狗：好消息！4月8号【下周三】就是“猪猪人”的发财日！

东坡|品文库爱贵州·荐书台｜《莫批施注苏诗》：跟着莫友芝，读懂东坡诗

男子酒驾被查百般耍赖，直到儿子打来一个电话……

好吃不贵的酱香鸡爪做法酱鸡爪怎么做

这里是儋州|市体育中心“一场两馆”项目：完成投资3.5亿元

退休人员养老金15连涨，2019年何时到手呢？最新通知到了！

微信潮流网名英语潮流2021年微信昵称网名英文名

郭晶晶|郭晶晶妈妈是隐形美女！和亲家母同框，一头银发真抢镜

止咳化痰最快的办法一招见效,化痰止咳最好的方法-

人民日报客户端|日增3.3万例，巴西新冠肺炎确诊病例超452万例

装修时，先定下墙面的颜色可以吗

红茶加茯苓,山楂麦芽茯苓茶的功效和作用