为啥没有nodejs的web爬虫
nodejs比较新,所以用的人还没那么多,而python已经非常成熟。另外一个很重要的原因,Python语言简洁,开发效率高,维护也方便,node回调反人类。同样都用框架写爬虫,js的代码量可能要比python多,而且还不好理解和维护。nodejs的强大之处在于解释前端js,比如,phantom在数据动态加载的时候(ajax啥的)很有优势,而且直接用jquery解析dom特别爽。
■网友
一般爬虫需求可以根据爬取规模分为两类:1.大量数据 2.少量数据
大量数据,大多数网站都有反爬机制,必须合理调度请求,以免被封,比如请求频率,切换用户代理,切换代理服务器等等,都是对抗反爬机制的手段
少量数据,这个就随便了,可以用phantom,也可以用superagent+cheerio
如果你的需求是大量数据,请求数较多的话,写回调是不是很头疼,本人实现了一个promise版的爬虫调度程序,本人较菜,使用的过程中有什么问题欢迎提issues
github地址:
【为啥没有nodejs的web爬虫】 GitHub - jabbla/StoreReq: Nodejs/Crawler
npm地址:
node-sr-crawler
■网友
有的,node对付反爬机制非常凑效
■网友
不管是phantomjs还是基于他衍生出来的例如casperjs都是很好爬虫库啊楼主是要框架么之前公司爬虫框架就是拿nodejs写的,肯定不能拿出来了。
■网友
先问有没有,再问为什么没有,按道理只要有http请求功能的就能爬网页,python简单,库多且用的人多,node也可以,类jq的很好爬网页的。
推荐阅读
- 家中千万不要摆这些绿植,对身体不仅没有帮助,还会起反作用
- 为啥看到书柜上的藏书会有心旷神怡的感觉
- 耻骨|韧带痛、耻骨也痛,从来没有这么痛过,痛了两个多星期了!”厦门孕妈崩溃:“孕晚期各种不舒服
- 为啥知乎上普便有一种【我在北上广深打工,所以拥有更好的视野】这样的错觉
- 为啥工商银行的用户体验如此之差
- 汽车|看了中消协4S店服务测评调查结果,终于知道法系车为啥卖不好了
- 你为啥从窝窝商城离职?
- 5.1声道片源对于没有5.1硬件系统的用户来说有意义吗
- 知乎有没有必要增加一个特别关注功能
- 孕妇到了预产期,小孩还没有入盆,请问是该等下去还是直接剖腹产
