怎样分析国内知名采集工具的优缺点( 二 )


基于浏览器内核的,目前是以八爪鱼、集搜客为代表,他们提供可视化的操作界面,方便用户制作采集规则。 因为是基于浏览器的,所以采集的时候网页中的css,javascript,图片全部都要下载请求。避免不了的致命弱点就是速度慢,效率低。

爬山虎采集器,它吸取了这2类采集器的优点,在提供了可视化的操作界面同时,保留了一个HTTP引擎,在一些Ajax动态加载数据的网站上使用浏览器内核,在普通网页上使用HTTP引擎。
【怎样分析国内知名采集工具的优缺点】 最大程度上保证采集效率,同时兼顾用户的学习成本和用户体验。


推荐阅读