网络爬虫同时需要考虑抓取频率 , 防止给站点造成过重负担 , 总之 , 搜索引擎的网络爬虫需要是个谦谦君子 。
5.2中文分词将清洗完成的内容进行分词提取关键词 , 比如一个网页内容有1000字 , 分词之后大约有50个词 , 相当于提取了网页的主干 , 并且会对标题、摘要、正文等不同部分的内容做不同权重处理 。
分词过程中会剔除停用词、虚词等 , 比如"的、得、地"等 , 从而极力还原网页的主干内容 。
我们用在线网页分词工具和真实网页来模拟下这个过程:
网页分词在线工具:
抓取网页:
基于字符串匹配的分词算法
基于概率统计的分词算法
基于语义规则的分词算法
其他算法
所谓正排就是根据docid可以拿到属于该网页的所有内容 , 是一个符合我们思维的正向过程 , 相对而言会有倒排索引 。
我们以一篇《隐秘的角落》剧情简介的页面为例 , 模拟分词情况 , 大致如下(本分词结果纯属脑补 , 以实际为准):
推荐阅读
-
-
-
-
三分钟军事速递|我国能撑多久?俄专家:这话该反过来问,如果抗日战争发生在现在
-
-
桂皮|桂皮不只是香料!专家:“隐藏”的4大功效,第4个男人都会喜欢!
-
7月贷款少增到底该怎么看|力度不减弱,精准导向强——7月贷款少增到底该怎么看?
-
卖黄瓜的|老人冒雨走路到公安局询问情况,心酸!儿子坐牢家中稻田无人收割
-
林敏骢|又有港剧可以追了,刚开播就飙上热搜,剧情好笑又接地气
-
『一网荷兰』荷兰医生:尚无法说明新冠肺炎造成少年儿童死亡原因
-
『电商在线』法拉利劳斯莱斯也开始转产,口罩之后轮到呼吸机?一台涨价24万
-
-
-
年内|中央储备冻猪肉累计投放43万吨 年内已投23批
-
「新鲜科技范」无线充电重要吗,为何各厂商追捧,你怎么看?
-
「纵相新闻」而是想获得一种体验,董明珠谈首场直播:不是想带产品
-
澎湃新闻|金科股份:上半年销售额868亿元,融资成本最高12%
-
-
-
中央|习近平就朝鲜劳动党成立75周年向金正恩致贺电