网络爬虫同时需要考虑抓取频率 , 防止给站点造成过重负担 , 总之 , 搜索引擎的网络爬虫需要是个谦谦君子 。
5.2中文分词将清洗完成的内容进行分词提取关键词 , 比如一个网页内容有1000字 , 分词之后大约有50个词 , 相当于提取了网页的主干 , 并且会对标题、摘要、正文等不同部分的内容做不同权重处理 。
分词过程中会剔除停用词、虚词等 , 比如"的、得、地"等 , 从而极力还原网页的主干内容 。
我们用在线网页分词工具和真实网页来模拟下这个过程:
网页分词在线工具:
抓取网页:
基于字符串匹配的分词算法
基于概率统计的分词算法
基于语义规则的分词算法
其他算法
所谓正排就是根据docid可以拿到属于该网页的所有内容 , 是一个符合我们思维的正向过程 , 相对而言会有倒排索引 。
我们以一篇《隐秘的角落》剧情简介的页面为例 , 模拟分词情况 , 大致如下(本分词结果纯属脑补 , 以实际为准):
推荐阅读
-
-
科技数据君RedmiBook 笔记本确认为 4500u 4700u
-
-
央视新闻客户端|小朋友们如何“拥抱”新学期?,全球迎来特殊开学季
-
-
-
-
|15张引人入胜的迷人照片,人体到底有多神奇?都是知识点
-
ZAKER娱乐|Bwipo父亲希望焕烽夺冠,SN化身死神来敲DWG的门
-
[智通财经]净筹2.385亿港元,慧聪集团(02280)拟折让9.09%配售2亿股
-
科技数码无极限|Pro将采用无碳铝外壳,苹果下一代16英寸MacBook
-
|本以为爱情来了,结果这跌宕起伏的剧情,冰火四重天……
-
东方网|贫困发生率从2.7%降到0.1%!濉溪的脱贫之路:给资助、给政策、给信心
-
-
特朗普|白宫浣熊一拥而上胖揍记者,网友笑了:这就是特朗普反媒体突击队
-
-
-
「急诊科小胡大夫」看起来简单的腰痛,结果却令人担心
-
【花与法兰西】又把中国排斥在一边,英法急了太自以为是,美国发起G7紧急会议
-