网络爬虫同时需要考虑抓取频率 , 防止给站点造成过重负担 , 总之 , 搜索引擎的网络爬虫需要是个谦谦君子 。
5.2中文分词将清洗完成的内容进行分词提取关键词 , 比如一个网页内容有1000字 , 分词之后大约有50个词 , 相当于提取了网页的主干 , 并且会对标题、摘要、正文等不同部分的内容做不同权重处理 。
分词过程中会剔除停用词、虚词等 , 比如"的、得、地"等 , 从而极力还原网页的主干内容 。
我们用在线网页分词工具和真实网页来模拟下这个过程:
网页分词在线工具:
抓取网页:
基于字符串匹配的分词算法
基于概率统计的分词算法
基于语义规则的分词算法
其他算法
所谓正排就是根据docid可以拿到属于该网页的所有内容 , 是一个符合我们思维的正向过程 , 相对而言会有倒排索引 。
我们以一篇《隐秘的角落》剧情简介的页面为例 , 模拟分词情况 , 大致如下(本分词结果纯属脑补 , 以实际为准):
推荐阅读
-
白羊座|未来一周,真爱敲门,月老见证,爱情终于有结果的4大星座
-
大话西游|大话西游2:牛图(68)金鳞砍龙、力魔展示,“耻辱”武器诞生
-
[延迟退休年龄]延迟退休出新动态,跟每个人都息息相关,现在知
-
-
-
足球星世界|索尔斯克亚迎救星,截胡利物浦!曼联抢24岁边路狂魔
-
-
-
人民日报|前8月全国城市空气质量优良天数占86.7%
-
-
-
-
美国取消价值773亿元的高铁项目,竟因不够钱了,要求助中国?
-
一致行动|容大感光:5%以上股东、一致行动人之一林海望质押150万股
-
央视|南非新增11554例新冠肺炎确诊病例 累计287796例
-
“把房子借给小姑子住,因为3000元物业费,我把她直接赶走”
-
民进党|港媒:5名乱港分子偷渡台湾后被禁止外联,民进党下达“封口令”
-
公司|焦点科技:沈锦华与黄良发减持计划完成,减持约379万股
-
中国驻卢旺达大使在卢主流媒体发表署名文章《香港国安法的重要意义》
-
合作|尚纬股份:戚薇等签约艺人未与重组公司或“抖音”平台签订独家合作协议