网络爬虫同时需要考虑抓取频率 , 防止给站点造成过重负担 , 总之 , 搜索引擎的网络爬虫需要是个谦谦君子 。
5.2中文分词将清洗完成的内容进行分词提取关键词 , 比如一个网页内容有1000字 , 分词之后大约有50个词 , 相当于提取了网页的主干 , 并且会对标题、摘要、正文等不同部分的内容做不同权重处理 。
分词过程中会剔除停用词、虚词等 , 比如"的、得、地"等 , 从而极力还原网页的主干内容 。
我们用在线网页分词工具和真实网页来模拟下这个过程:
网页分词在线工具:
抓取网页:
基于字符串匹配的分词算法
基于概率统计的分词算法
基于语义规则的分词算法
其他算法
所谓正排就是根据docid可以拿到属于该网页的所有内容 , 是一个符合我们思维的正向过程 , 相对而言会有倒排索引 。
我们以一篇《隐秘的角落》剧情简介的页面为例 , 模拟分词情况 , 大致如下(本分词结果纯属脑补 , 以实际为准):
推荐阅读
-
-
陈佩斯■1973年,陈强找到负责招生的田华说:我求你,把陈佩斯收了吧
-
汽车|合资纯电车价格大跳水!曝别克微蓝6跳楼价63折甩卖
-
中央空调|要不要在家里装中央空调?自己犹豫不决,我可以帮你做决定
-
-
-
经济观察报|台海观澜 | 台湾823天无选举,两岸70天后进入冷静期
-
-
女人时尚情报|又攻又美,谁穿都赚足回头率,万茜的“女绅士”装我劝你追一下
-
-
「侯耀文」相声大师侯耀文去世13年后,被“侄儿”戴志诚“勾”走的娇妻,今如何?
-
-
-
-
没经验爸爸说育儿|你当年是怎么看上我爸的?”父母年轻时照片,颜值反差太大,“妈
-
张大大|小鲜肉做什么都错?这期跑男告诉你,痴长年龄的作精更让人烦!
-
弃用华为5G成主流?余承东感到很抱歉:又揽下一项世界第一
-
-
成铭聊时尚|谁说衬衫太单一?四组搭配教你花式穿衬衫,让你成为时髦精本人
-
NVIDIA|曝NVIDIA 5nm GPU即将流片:台积电代工