Python爬虫入门,你更喜欢学习全面知识还是常用的方法( 二 )
【Python爬虫入门,你更喜欢学习全面知识还是常用的方法】 那大批量爬取不需要登陆就能获取重要数据的网站难不难呢?很遗憾,大多数情况下这仍然是不难的。许多网站无法对中等速度来自不同ip的匿名爬虫请求做出有效的防御,而python主流的网络请求相关的包都提供了成熟的代理设置方法,基本上只要传个参即可。如果一定要说这其中有什么难点的话,大概就是找到靠谱的ip源了,但是这跟python有什么关系吗?只要你肯花钱,ip源总是能找到的,而企业一般是不会连买ip这点钱都舍不得出的。
更多情况下,是企业需要获取和处理比较大量的数据。这个数据基本不会超出企业全部人力处理能力的极限太多(当然,基本不会有企业把全部人力投入在这种事情上面); 这些数据获取的频度、速度要求都不高,可能只要在几天,一周内完成一轮就可以,甚至是一次性的。而对于这些需求,说句实话,并不存在什么难度,甚至一个单线程的爬虫就足以应对。
当然,这个世界很大,总是有“极有挑战性”的爬虫工作需要招人的。但是总量是非常之少的,而除去这一极小部分的工作,其他几乎所有跟爬虫密切相关的工作,内容都是相当简单的。也就是说在爬虫这个领域,基本不存在这样一条平缓的曲线,你不太可能一边工作一边以一个较为稳定的速度进步,最终到达这类岗位的顶端,反而更有可能要么就是靠着一定的积累和——以这个岗位的普遍性质来看——很好的运气直接到达顶端的岗位,然后迅速成长,要么就是一直在普通岗位上做一些基础性的工作。
这是技术方面的问题,在大多数情况下,爬虫都是一件简单的事。但更令我做爬虫时感到如鲠在喉的一件事,是动机。在我看来爬虫是什么呢?是一种欺骗的“艺术”。
没错,欺骗。搜索引擎也是基于爬虫而且可以例外,但爬虫并不是搜索引擎唯一的技术难点,况且搜索引擎占爬虫总数量的比重完全可以忽略不计,因为站内搜索是不需要爬虫的,只要搜索自己的数据库就可以了。而对于大多数爬虫来说,你需要欺骗你要去爬的网站,让对方以为你是人类访问者。这其中有两个点,一是对方网站出于种种原因,不希望你大批量访问他的数据,所以通常会设定强度高低不等的反爬虫程序; 二是你却偏要获取他的数据,所以会写出高明程度不等的程序去欺骗对方的网站,绕过他的反爬虫。看提问者的描述,是冲着传说中那种稳定日请求量百万甚至千万的传说级爬虫去的。但这种爬虫是什么概念呢?要么就是你方企业跟对方有合作,对方给你开了绿色通道让你毫无顾忌的获取他的特定数据,要么就意味着登峰造极的欺骗,绕过对方所有强大(很可能随着爬取过程还会越来越强大)的反爬虫技术,快速将对方不希望你大量获得的数据收入囊中,我想问问题主,这两点哪个听起来更难,哪个听起来对你更有吸引力呢?
我是学python入的行,是学爬虫入门的python,我在计算机行业的第一份工作就是跟爬虫密切相关的,所以我对爬虫的感情比较复杂,但这复杂的感情中主要还是偏向负面的。原因也基本不外乎上面那些,python可以用在很多地方,不过几乎都是“拥有各领域相关专业知识的人利用python加速对相关领域的研发”,重点和难点都在相关领域的专业知识,比如人工智能就是这样。在纯python的领域,几乎所有人提起来第一个想到的词就是爬虫,我并不认为这是一件多值得骄傲的事情,题主如果你看到了这里并且认同我之前说的话,也不妨再探索一下python在其他领域的应用,甚至学习一些其他的语言也未尝不可。
祝你的职业生涯一路顺利。
■网友
两种没区别...
省略的 urllib 和 BS4 ... 初学也就1、2天的事,有提问的时间都已经学完了
urllib 省略没什么问题,因为 requests 可完整取代
BS4 主要是学习 Xpath 提取,用 Scrapy 也要学,所以不要省略,虽然有其他库可替代,但 BS4 教程比较多,用法也简单
推荐阅读
- 橘猫车探长|国产又一硬派越野,入门有255马力,气场堪比路虎卫士,或10万起
- 想要入门图像处理,应该从哪本书看起
- 怎样成为一名合格的Python程序员?
- python 爬虫,咋获得输入验证码之后的搜索结果
- 汽车|全新领克01正式上市,入门即高配闭着眼都能选!
- 环球车讯网|五万元入门代步车盘点,合资车也不是没有可能
- python的html5lib这个库咋使用啊我在网上也没有找到相关文档
- 老易聊车|这台20万级合资SUV是真难,外观很年轻,入门248Ps,但就是卖不动
- |新款领克01竞争力分析:推荐入门版 价格门槛提高2.9万元
- 六儿品车|入门2.0T+8AT,噪音几乎为零,有了冒险家还选啥BBA?
