爬虫都怎样爬去文章
搜索引擎的爬虫和需要做规则的爬虫不一样。做搜索引擎几乎不用做规则,对整个网页的文本建立索引,也有用自动生成模板的方式把无用的信息过滤掉,比如,把论坛的帖子保留下来,把左右两栏的不相关内容过滤掉,同时把帖子的楼层识别出来,自动生成模板。但是有些时候需要精准地把网页上内容按照字段分别提取出来,所以需要手工做正则或者其他模板。每个网站要做一套,不同网站之间不能通用。通常我们说的写爬虫程序都是指这种需要做模板的这种,所以很多时间都花在调试模板上,在我的专栏里面提出了一个思路,可以尽量减少一些制作模板的工作量。
推荐阅读
- 聪明人养花,这3种“花”怎样也要养一盆,每年能省不少医药费
- 互联网怎样解决“家政服务上门速度慢”的问题
- 怎样看待从1月8号起,QQ钱包开始提现收费
- 银行it人怎样转型
- 汽车|冬天怎样让车内温度快速升高?座椅加热的最佳使用方式二,外循环的作用总结
- 怎样进入通信行业
- 怎样评价扶他柠檬茶的小说《云养汉》的结尾
- 怎样成为一名合格的Python程序员?
- 怎样评价华为、诺基亚、中兴中标中国移动高端路由交换设备扩容集采
- 怎样评价类似前橙会、百老汇、南极圈这样类型的离职帮抱团,对企业的积极意义和消极意义
