网络爬虫同时需要考虑抓取频率 , 防止给站点造成过重负担 , 总之 , 搜索引擎的网络爬虫需要是个谦谦君子 。
5.2中文分词将清洗完成的内容进行分词提取关键词 , 比如一个网页内容有1000字 , 分词之后大约有50个词 , 相当于提取了网页的主干 , 并且会对标题、摘要、正文等不同部分的内容做不同权重处理 。
分词过程中会剔除停用词、虚词等 , 比如"的、得、地"等 , 从而极力还原网页的主干内容 。
我们用在线网页分词工具和真实网页来模拟下这个过程:
网页分词在线工具:
抓取网页:
基于字符串匹配的分词算法
基于概率统计的分词算法
基于语义规则的分词算法
其他算法
所谓正排就是根据docid可以拿到属于该网页的所有内容 , 是一个符合我们思维的正向过程 , 相对而言会有倒排索引 。
我们以一篇《隐秘的角落》剧情简介的页面为例 , 模拟分词情况 , 大致如下(本分词结果纯属脑补 , 以实际为准):
推荐阅读
-
-
-
『邓伦』《密逃2》节目组这次下血本了,包下整座大厦,邓伦吓出新表情包
-
时尚大对碰|瘦子的福利,这样穿就很特别,今年秋季火了“喇叭袖”
-
-
-
-
-
-
做法|茄子最简单好吃的做法,不用过油,水水嫩嫩鲜香下饭,全家都爱吃
-
伏魔半仙人|这几款绝版,而她在五周年能返场?,曾经免费能获取史诗级皮肤
-
-
-
不冷星球 张艺谋小31岁娇妻为儿庆生,长子张壹男才华横溢,18岁获国际影奖,
-
-
『净利润』信用卡逾期半年,第三方催收暴通讯录,上门,恐吓威胁该怎么办
-
喜数科技小陈|输球又输人!热刺1-3惨败,穆里尼奥炮轰裁判,球迷:黔驴技穷了
-
「田野牧蜂自然成熟蜜」蜂蜜绿茶的功效与作用?绿茶加蜂蜜治疗咽炎?
-
整点鲜闻|李湘直播忙带货,老公在外搂腰壁咚女友人,女生该如何保护自己?
-
『逗儿妈妈』家长巧用“登门槛效应”,培养孩子专注力,孩子做事没有“长性”