网络爬虫同时需要考虑抓取频率 , 防止给站点造成过重负担 , 总之 , 搜索引擎的网络爬虫需要是个谦谦君子 。
5.2中文分词将清洗完成的内容进行分词提取关键词 , 比如一个网页内容有1000字 , 分词之后大约有50个词 , 相当于提取了网页的主干 , 并且会对标题、摘要、正文等不同部分的内容做不同权重处理 。
分词过程中会剔除停用词、虚词等 , 比如"的、得、地"等 , 从而极力还原网页的主干内容 。
我们用在线网页分词工具和真实网页来模拟下这个过程:
网页分词在线工具:
抓取网页:
基于字符串匹配的分词算法
基于概率统计的分词算法
基于语义规则的分词算法
其他算法
所谓正排就是根据docid可以拿到属于该网页的所有内容 , 是一个符合我们思维的正向过程 , 相对而言会有倒排索引 。
我们以一篇《隐秘的角落》剧情简介的页面为例 , 模拟分词情况 , 大致如下(本分词结果纯属脑补 , 以实际为准):
推荐阅读
-
【诗妮娜】68岁泰王恣意妄为,对女儿闺蜜“下手”了,会是下一个诗妮娜吗?
-
-
ZAKER汽车|Jeep有牧马人,福特有“烈马”,越野爱好者可有福了,哈弗有大狗
-
众鸟孤云|2000年朱时茂陈佩斯却状告央视,获赔33万真的赢了吗,11次上春晚
-
-
通告,与公告 通知 通报区别对比 公告与通告的区别
-
女排▲女排这三人风格不同,最能体现郎平所说的互补,出征东京毫无悬念
-
-
Facebook Messenger收集的数据量有多吓人?可视化对比图告诉你
-
警方|高考当天发现身份证过期 海淀警方开启绿色通道当天拿证
-
2020年11月份轿车销量排行完整版,你的爱车排多少呢
-
-
爱否科技|Nord 系列新机 N10 5G/N100 海外发布,一加
-
不同产业、不同区域间发展不平衡——农业机械化瞄准三大领域补短板
-
『无线耳机』?注册制下该怎么玩,当下手中的股票该怎么办
-
生活的颤音|凭《生活的颤音》大火的冷眉,为何突然息影?冷眉如今咋样了?
-
-
专家分析核酸检测“假阴性”问题:多原因造成要积极应对
-
开黑新使者|赛季双排第一名,这一点不得不服不求人!,王小歪和不求人争一哥
-
新华网|索尼最新全画幅微单Alpha 7S III即将上市