开发爬虫 大家都用啥爬虫框架
之前用java发现java的调试做的好烂 然后就用c# 后来发现php更是恶心 最后才发现原来浏览器插件才是最好用的 然而最最最优秀的就是做个浏览器窗口 想要哪里点哪里还不用费心js 我不说框架的原因是意义不太大 本来就是post get然后结合分布式就出来个分布式爬虫 我也是服了 结合个云计算就可以叫做云爬虫 说的好高大上 还有没有任何一个框架知道你所需要信息在页面的什么位置 框架能做帮你获取那个页面 随带提供一下HTML解析 而楼主做的那个云爬虫就是用框架在给定的url 使用post get获取页面再写个通用的方法 把我标注的位置信息上的数据提取出来 屏蔽的话请参考我的回复 另外世上没有任何一个框架带有防屏蔽的功能 如果有 那也只能定义成漏洞…………………………………………既然看了答案 还可以关注我喔
■网友
最近学习python之后发现真是太舒服,scrapy表示真的不错,以前写爬虫都是用java,都是自己手写,java里面相对webmagic来说,算是一个比较好的爬虫框架了,文档各个方面也都比较详细,那python里的scrapy 也是一样,感觉这两个框架还是有比较相似的设计思想在里面,最近准备从新温习下java写爬虫,顺便对比学习scrapy 和 webmagic,以前在大学的时候还比较喜欢玩CasperJS,试着抓过几个相对于普通爬虫来说不容易获取的动态数据,效果不错,但是没有细看过文档,如果结合开发应该效果会不错吧~ :p看看大家都用些什么了,其实相对与框架自己手写可能更能写出感觉吧~
■网友
开发爬虫 大家都用什么爬虫框架? 【开发爬虫 大家都用啥爬虫框架】 先解释一下,爬虫主要分3步/模块/阶段:
下载提取保存有很多种语言实现爬虫和爬虫框架最方便最好用的要属PythonPython中最常用的框架有PySpiderPython爬虫框架:PySpiderScrapy主流Python框架:Scrapy其他语言还有:java,Go,NodeJS,C#等等
最好能自带防屏蔽机制的没有任何一个框架会自带你所谓的 防屏蔽机制
看来你其实更需要了解,所谓的 防屏蔽 在爬虫中的地位和作用:
下载网页做了什么:请求网址或api接口,去下载返回得到什么:html网页或json字符串实现方式:原始:自己写网络函数比如Python的urllib,C#的网络库优点:更贴近和了解底层技术缺点:要求熟悉底层技术,相对用已有的库,写起来比较复杂 使用已有第三方库优点:省心,高效缺点:要额外引入库,且要了解如何使用对于新手,往往是直接用了第三方库后,不了解内部机制其中涉及到如果被爬方(网站,app等)做了一些反爬措施:才涉及到你所说的“防屏蔽”具体屏蔽 和 防屏蔽 有:验证码 -》验证码识别:(用第三方)打码平台IP限制 + 抓取频率限制 -》代理池 + 设置抓取的间隔时间身份限制 -》Http的Headers中的UA=User-Agent提取内容保存数据
-》要看完整的解释,可以去看我的(待发布的)教程:
爬取你要的数据:爬虫技术
■网友
写爬虫当然不能不会用scrapy,尤其适合全量抓取,虽然做增量很lower,但毕竟咱简单好用不是!
■网友
使用如下三个爬虫框架:
轻量级python爬虫框架:gaoxinge/spidery一站式异步请求python爬虫框架:scrapy/scrapy,binux/pyspider
■网友
Python是不二之选呀,只是要考虑如何不被屏蔽
■网友
推荐你一个
Python有哪些常见的、好用的爬虫框架?这里有渲染采集,还可以配置代理IP
推荐阅读
- 环球车讯网|一口气降了5.5万元,奔驰C级卖出“白菜价”
- 汽车知识|捷达库存成灾,特价处理,4S店卖不动,大家都不差钱!
- |奥迪开发基于C-V2X校车警示系统
- python 爬虫,咋获得输入验证码之后的搜索结果
- 汽车|长安汽车:公司与华为、宁德时代三方正在联合开发智能网联电动汽车平台和产品
- 啥是微信开发WEB前端
- 汽车知识|长安闷声干大事!长安CS15大家买账吗?还有胎压报警、定速巡航 你知道吗?
- 做苹果开发,想买台MacBook,大家建议买啥
- 开发/维护 一个类似qq会员或者Amazon Prime会员的会员系统有哪些难点和挑战
- web开发,一般项目经理从项目中拿多少项目奖金
