#导入urlopen函数fromurllib.requestimporturlopen#导入BeautifulSoupfrombs4importBeautifulSoupasbf#请求获取HTMLhtml=urlopen("https://www.baidu.com/")#用BeautifulSoup解析htmlobj=bf(html.read(),\u0026#39;html.parser\u0026#39;)#从标签head、title里提取标题title=obj.head.title#打印标题print(title)看看结果:
这样就搞定了,成功提取出百度首页的标题。
如果我想要下载百度首页logo图片呢?
第一步先获取该网页所有图片标签和url,这个可以使用BeautifulSoup的findAll方法,它可以提取包含在标签里的信息。
一般来说,HTML里所有图片信息会在“img”标签里,所以我们通过findAll("img")就可以获取到所有图片的信息了。
#导入urlopenfromurllib.requestimporturlopen#导入BeautifulSoupfrombs4importBeautifulSoupasbf#请求获取HTMLhtml=urlopen("https://www.baidu.com/")#用BeautifulSoup解析htmlobj=bf(html.read(),\u0026#39;html.parser\u0026#39;)#从标签head、title里提取标题title=obj.head.title#使用find_all函数获取所有图片的信息pic_info=obj.find_all(\u0026#39;img\u0026#39;)#分别打印每个图片的信息foriinpic_info:print(i)看看结果:
打印出了所有图片的属性,包括class(元素类名)、src(链接地址)、长宽高等。
其中有百度首页logo的图片,该图片的class(元素类名)是index-logo-src。
可以看到图片的链接地址在src这个属性里,我们要获取图片链接地址:
#导入urlopenfromurllib.requestimporturlopen#导入BeautifulSoupfrombs4importBeautifulSoupasbf#请求获取HTMLhtml=urlopen("https://www.baidu.com/")#用BeautifulSoup解析htmlobj=bf(html.read(),\u0026#39;html.parser\u0026#39;)#从标签head、title里提取标题title=obj.head.title#只提取logo图片的信息logo_pic_info=obj.find_all(\u0026#39;img\u0026#39;,class_="index-logo-src")#提取logo图片的链接logo_url="https:"+logo_pic_info#打印链接print(logo_url)结果:
获取地址后,就可以用urllib.urlretrieve函数下载logo图片了
#导入urlopenfromurllib.requestimporturlopen#导入BeautifulSoupfrombs4importBeautifulSoupasbf#导入urlretrieve函数,用于下载图片fromurllib.requestimporturlretrieve#请求获取HTMLhtml=urlopen("https://www.baidu.com/")#用BeautifulSoup解析htmlobj=bf(html.read(),\u0026#39;html.parser\u0026#39;)#从标签head、title里提取标题title=obj.head.title#只提取logo图片的信息logo_pic_info=obj.find_all(\u0026#39;img\u0026#39;,class_="index-logo-src")#提取logo图片的链接logo_url="https:"+logo_pic_info#使用urlretrieve下载图片urlretrieve(logo_url,\u0026#39;logo.png\u0026#39;)最终图片保存在\u0026#39;logo.png\u0026#39;
六、结语
本文用爬取百度首页标题和logo图片的案例,讲解了python爬虫的基本原理以及相关python库的使用,这是比较初级的爬虫知识,还有很多优秀的python爬虫库和框架等待后续去学习。
当然,掌握本文讲的知识点,你就已经入门python爬虫了。加油吧,少年!
5、赶紧行动吧!疫情特殊时期,很多人在家闲着,趁这个机会学习python爬虫,上班后也能继续学习python大法。
推荐阅读
-
-
-
新京报马云遭印度法院传唤?阿里王帅神回应:马云退休后越来越难找了
-
据大数据分析,90后平均欠债十二万多,且晚婚居多,是啥造成的这一现象
-
保释@网易新用户协议吓跑了玩家:不得展示游戏的画面、封号解封还要收保释金?
-
涂鸦|90后“魔画师”创意涂鸦井盖灯杆 扮靓山海健康步道
-
-
『AI研究专业户』12G+1TB降价4000元,跌掉了一部小米10,三星S10+加速清仓
-
人民日报|第一场雪来了!九寨沟、黄龙、四姑娘山开启雪景模式
-
吴怼怼|提供新基建下云端安全新指南,腾讯安全云鼎实验室发布云安全九大趋势
-
一夜书1993|实力超越元始天尊?答案很意外,西行纪:孙悟空被轮回师一招变老
-
-
悲剧!不堪丈夫患痴呆后长期家暴,妻子数十刀将其砍死
-
三嫁惹君心师伯音隐藏什么秘密 三嫁惹君心吴奇隆是配角
-
天玑1200|最便宜12GB游戏手机!Redmi K40游戏版明日开启闪降:2299到手
-
英雄教学|中路再次回归刺客版本!劫领衔三大刺客助你上分
-
牛市|中国A股这波牛市还能走多远,是疯牛还是最后的晚餐?
-
烹饪|家常川菜做法,大叔教你水煮鱼片,鱼肉滑嫩,麻辣鲜香,家人爱吃
-
宾平荟生活|瓜帅要买前锋了?阿奎罗还未复出,现在热苏斯也伤了!
-