爬虫都怎样爬去文章

搜索引擎的爬虫和需要做规则的爬虫不一样。做搜索引擎几乎不用做规则,对整个网页的文本建立索引,也有用自动生成模板的方式把无用的信息过滤掉,比如,把论坛的帖子保留下来,把左右两栏的不相关内容过滤掉,同时把帖子的楼层识别出来,自动生成模板。但是有些时候需要精准地把网页上内容按照字段分别提取出来,所以需要手工做正则或者其他模板。每个网站要做一套,不同网站之间不能通用。通常我们说的写爬虫程序都是指这种需要做模板的这种,所以很多时间都花在调试模板上,在我的专栏里面提出了一个思路,可以尽量减少一些制作模板的工作量。


    推荐阅读