网络爬虫同时需要考虑抓取频率 , 防止给站点造成过重负担 , 总之 , 搜索引擎的网络爬虫需要是个谦谦君子 。
5.2中文分词将清洗完成的内容进行分词提取关键词 , 比如一个网页内容有1000字 , 分词之后大约有50个词 , 相当于提取了网页的主干 , 并且会对标题、摘要、正文等不同部分的内容做不同权重处理 。
分词过程中会剔除停用词、虚词等 , 比如"的、得、地"等 , 从而极力还原网页的主干内容 。
我们用在线网页分词工具和真实网页来模拟下这个过程:
网页分词在线工具:
抓取网页:
基于字符串匹配的分词算法
基于概率统计的分词算法
基于语义规则的分词算法
其他算法
所谓正排就是根据docid可以拿到属于该网页的所有内容 , 是一个符合我们思维的正向过程 , 相对而言会有倒排索引 。
我们以一篇《隐秘的角落》剧情简介的页面为例 , 模拟分词情况 , 大致如下(本分词结果纯属脑补 , 以实际为准):
推荐阅读
-
-
李传前正畸齿医生口腔|缺牙了,种植牙和烤瓷牙选哪个好纠结,大连齿医生口腔科普
-
银耳|银耳先剪碎再泡发,还是先泡发再剪碎?很多人弄反了,难怪不出胶
-
「薇娅」成交852单自己分文不赚,直播卖房,薇娅是认真的“走播”卖房挑战房企最低价外界的声音
-
-
『舞之灵小食堂』奶奶用了20年的青团方子,软糯Q弹,营养吃不胖,比买的都好吃
-
-
-
百星现身国剧盛典:谭松韵腹部绷太紧,关晓彤礼服太宽,马苏脸长
-
成都商报|有何来头?,特朗普三天内两次躲进的白宫掩体
-
男神:4位“红得快,凉得更快”的艺人:以前全是男神,如今无人问津
-
「贵州」贵州2020年科技支撑计划项目申报即将开始,这类医务人员重点支持
-
超能力|全球拥有超能力的7个人,他们异于常人,有的至今都无法解释
-
蓝牙耳机|蓝牙耳机排行榜10强、推荐几款2020比较好用的蓝牙耳机
-
-
车家号|东南DX7星跃将于下半年上市,外观调整、更名再战
-
网银互联LinkCloud加入AWS中国合作伙伴网络, 共建云网服务生态
-
-
-