为啥没有nodejs的web爬虫

nodejs比较新,所以用的人还没那么多,而python已经非常成熟。另外一个很重要的原因,Python语言简洁,开发效率高,维护也方便,node回调反人类。同样都用框架写爬虫,js的代码量可能要比python多,而且还不好理解和维护。nodejs的强大之处在于解释前端js,比如,phantom在数据动态加载的时候(ajax啥的)很有优势,而且直接用jquery解析dom特别爽。
■网友
一般爬虫需求可以根据爬取规模分为两类:1.大量数据 2.少量数据
大量数据,大多数网站都有反爬机制,必须合理调度请求,以免被封,比如请求频率,切换用户代理,切换代理服务器等等,都是对抗反爬机制的手段
少量数据,这个就随便了,可以用phantom,也可以用superagent+cheerio
如果你的需求是大量数据,请求数较多的话,写回调是不是很头疼,本人实现了一个promise版的爬虫调度程序,本人较菜,使用的过程中有什么问题欢迎提issues
github地址:
【为啥没有nodejs的web爬虫】 GitHub - jabbla/StoreReq: Nodejs/Crawler
npm地址:
node-sr-crawler

■网友
有的,node对付反爬机制非常凑效
■网友
不管是phantomjs还是基于他衍生出来的例如casperjs都是很好爬虫库啊楼主是要框架么之前公司爬虫框架就是拿nodejs写的,肯定不能拿出来了。
■网友
先问有没有,再问为什么没有,按道理只要有http请求功能的就能爬网页,python简单,库多且用的人多,node也可以,类jq的很好爬网页的。


    推荐阅读