手把手教你爬取天堂网1920*1080大图片(批量下载)——理论篇
/1前言/
平时我们要下载图片 , 要要一个一个点击下载是不是觉得很麻烦?那有没有更加简便的方法呢?答案是肯定的 , 这里我们以天堂网为例 , 批量下载天堂网的图片 。

文章图片
/2项目准备工作/
首先我们第一步我们要安装一个pycham的软件 。 可以参考这篇文章:Python环境搭建—安利Python小白的Python和Pycharm安装详细教程 。
天堂网的网址:
https://www.ivsky.com/bizhi/1920x1080/
我们需要下载几个库 , 怎么下载呢?打开pycharm , 依次点击File , 再点开Settings , 如下图所示 。

文章图片
打开后会出现这个界面点击你的项目名字(project:(你的项目名字)) , 之后在projectinterpreter下 , 点击加号 , 而后下载我们需要的库 , 如下图所示 。
本项目需要用到的是库是requests、lxml、fake_useragent , 如下图所示 。 fake_useragent一般是没有的 , 需要通过下面的命令进行安装:
pipinstallfake_useragent

文章图片
/3项目实现/
1.导入需要的库(requests , lxml , fake_useragent) 。
2.我用了封装方法去实现各个部分的功能 。 首先要写一个框架:构造一个类TianTangWebsite , 然后定义一个__init__方法里继承(self) , 再定义一个主方法(main) 。 最后实现这个main方法 , 依次一步一步进行实现 。
3.我们把天堂网的网址拿过来 , 构造请求头 。 这里说一下这个UserAgent的获取方法 。 在打开天堂网的网站后 , 按下键盘上的F12键 , 之后会进入到开发者模式 , 之后点开network , 如下图所示 。

文章图片
4.而后随便点击一个name , 复制header里边的UserAgent就可以了 。
5.我们点击下一页的地址观察网址的变化 , 如下所示:
https://www.ivsky.com/bizhi/1920x1080/index_2.htmlhttps://www.ivsky.com/bizhi/1920x1080/index_3.htmlhttps://www.ivsky.com/bizhi/1920x1080/index_4.html
很明显的发现 , 这个网址的网页数字一直在变化 。 我们可以用格式化{}去代替变化的值 , 类似这样:
https://www.ivsky.com/bizhi/1920x1080/index_{}.html
6.然后我们用for循环去遍历这些网址 , 代码如下所示:
defmain(self):foriinrange(1,2):#页数随机客户随便设置url=self.url.format(i)print(url)
【手把手教你爬取天堂网1920*1080大图片(批量下载)——理论篇】7.我们定义这个get_home()方法去请求到这个网址 。

文章图片

文章图片
9.我们需要解析得到的数据 , 接下来定义一个xiap的方法 , 拿到我们请求的网址 。 接下来就是该项目的关键了 。
10.至此 , 针对反爬虫的措施我们已经提前做好了准备 , 下一步将进行网页结构的分析以及网页图片地址数据的提取 , 并针对解析出来的图片地址予以批量下载 , 具体实现咱们下篇文章进行详解 。
/4小结/
本文主要内容为对图片网站进行了基本简介 , 基于Python中的爬虫库requests、lxml、fake_useragent , 提前部署了请求头 , 模拟浏览器 , 针对反爬虫的措施我们已经提前做好了准备 。
下篇文章将带大家进行网页结构的分析以及网页图片地址数据的提取 , 并针对解析出来的图片地址予以批量下载 , 敬请期待~~
推荐阅读
- 教你美|条纹明明是经典的“线条美”,怎么被你穿成“睡衣”?
- 王者荣耀:教你教你如何成为野王,注意这4点,技术迅速上升!
- 学渣还在半夜“补作业”?学姐教你“3方法”,考试没准会逆袭!
- 西瓜吃不完别再放冰箱,教你一招,放十天半月都不变质,随吃随鲜
- 电动车不耐用了就要换电瓶?教你一招:2块钱就能让电瓶多用3年
- 羊肉除腥膻,不焯水,教你1个实用小方法,肉嫩清香还无腥
- 百吃不腻的腌菜配方?比什么都好吃,我来教你
- C1驾驶证只能开私家车?交警:谁教你的?这3种车也能随意开
- 一大批泡水车涌来,教你如何鉴别泡水车
- 我能教你几道美味的菜?它们太好吃了,你禁不住要吃
