用Python爬取网易云音乐全部歌手的热门歌曲 _Python

由于歌手个人主页的网页源代码中还嵌入了一个子网页(框架源代码里面包含了我们需要的信息),因此我们不能使用requests库来爬取,而使用selenium 。
接下来,让我详细讲解整个爬取过程.
一,构造歌手个人主页的URL
前段时间我们获取了网易云音乐全部歌手的id号
今天我们就利用全部歌手的id号来构造歌手个人主页的URL,从而实现用爬取全部歌手的热门歌曲及其id号的目的
以歌手薛之谦的个人主页为例,来看一下他的主页的URL为:
https://music.163.com/#/artist?id=5781
因此只需要根据歌手对应的id就可以构造出歌手的个人主页,在歌手的个人主页我们能看到热门作品这一栏网易云音乐全部歌手id号点击获取(csv文件)
二,分析网页源代码
现在我们就要用Python爬虫去爬取这些内容.如果你用requests库去爬取的话,返回的网页源代码中根本就没有这些信息
这时我们打开薛之谦的个人主页鼠标右键分别查看网页的源代码和查看框架的源代码
你会发现网页源代码和用requests库请求返回的源代码一摸一样(里面没有我们要爬取的信息),而在框架源代码中有我们要爬取的热门作品的信息
因此我们只需要将框架源代码爬取下来
然后再解析即可得到我们需要的歌手的热门作品的信息.
三,网页源代码和框架源代码的区别
网页源代码是指父级网页的源代码.另外网页中还有一种节点叫iframe ，也就是子Frame ，相当于网页的子页面
它的结构和外部网页的结构完全一致，框架源代码就是这个子网页的源代码.
四,获取框架源代码
这里我们使用selenium库来爬取,在selenium打开页面后
默认是在父级frame里面进行操作，而此时页面中还有子frame ，它是不能获取到子frame里面的节点的，因此这时我们需要使用swith_to.frame()方法来切换到子frame中去
这时请求得到的代码就从网页源代码切换到了框架源代码
于是我们便能够提取我们需要的热门作品的信息了
通过歌手的个人主页的URL来爬取其框架源代码,具体爬取框架源代码的函数:
def get_html_src(url): # 可以任意选择浏览器,前提是要配置好相关环境,更多请参考selenium官方文档 driver = webdriver.Chrome() driver.get(url) # 切换成frame driver.switch_to_frame("g_iframe") # 休眠3秒,等待加载完成! time.sleep(3) page_src = https://www.isolves.com/it/cxkf/yy/Python/2019-07-22/driver.page_source driver.close() return page_src返回结果为歌手个人主页的框架源代码,里面包含了我们需要的信息.
五,解析源代码
我们使用bs4库进行解析,需要的信息包含在HTML5的下面代码片段中:
<span class="txt"><a href=https://www.isolves.com/it/cxkf/yy/Python/2019-07-22/"/song?id=(d*)">
因此可定义下面函数对其进行解析:
def parse_html_page(html):# pattern = '<span class="txt"><a href=https://www.isolves.com/it/cxkf/yy/Python/2019-07-22/"/song?id=(d*)">' # 这里是使用lxml解析器进行解析,lxml速度快,文档容错能力强,也能使用html5lib soup = BeautifulSoup(html, 'lxml') items = soup.find_all('span', 'txt') return items六,写入csv文件
def write_to_csv(items, artist_name):
【用Python爬取网易云音乐全部歌手的热门歌曲】with open("music163_songs.csv", "a") as csvfile: writer = csv.writer(csvfile) writer.writerow(["歌手名字", artist_name]) for item in items: writer.writerow([item.a['href'].replace('/song?id=', ''), item.b['title']]) print('歌曲id:', item.a['href'].replace('/song?id=', '')) song_name = item.b['title'] print('歌曲名字:', song_name)csvfile.close()七,读取csv文件,构造全部歌手的个人主页
# 获取歌手id和歌手姓名def read_csv():with open("music163_artists.csv", "r", encoding="utf-8") as csvfile:reader = csv.reader(csvfile) for row in reader: artist_id, artist_name = row if str(artist_id) is "artist_id": continue else: yield artist_id, artist_name # 当程序的控制流程离开with语句块后, 文件将自动关闭八,程序主函数
# 主函数def main(): for readcsv in read_csv(): artist_id, artist_name = readcsv url = "https://music.163.com/#/artist?id=" + str(artist_id) print("正在获取{}的热门歌曲...".format(artist_name)) html = get_html_src(url) items = parse_html_page(html) print("{}的热门歌曲获取完成!".format(artist_name)) print("开始将{}的热门歌曲写入文件".format(artist_name)) write_to_csv(items, artist_name) print("{}的热门歌曲写入到本地成功!".format(artist_name))

上一页
1
2
下一页

推荐阅读

封面时尚|“撕掉”一半更显气质，色彩土气也没关系皮衣的款式皮衣的颜色，宁静和姚晨穿同款皮衣

娱乐新潮向|跟R1SE成员一起，背红色编织袋成新潮流，鹿晗新综艺路透曝光

北京日报|北京：地铁每人次运营成本7.82元

蓝盈莹|蓝盈莹宣传新剧却被砸鸡蛋，她下意识反应叫人意外，果然是个腕儿

新华全媒体|巴西成为疫情新“震中”的两大主因

高中常见酸的酸性强弱顺序二元化合物

格尔木|青海失联女大学生曾通过乃吉沟检查站！救援力量已赴可可西里寻找

[航天]中国研制出世界唯二技术，美国人也才刚攻克，要求中国不要外泄

▲夫妻一个月互动几次最好？给大家一个公式，自己亲自算一算！

心理咨询师二级论文有什么要求？心理咨询师二级论文

篮球|消息人士：我们准备好明天打球，但被告知明天不会有比赛

A.O.史密斯“零冷水”燃气热水器销量口碑行业均领先

闲鱼|大众探岳颗粒捕捉器堵塞油耗飙升！闲鱼现高速代跑兼职一次200

强敌@男篮奥运落选赛程出炉！男篮2天连战2大强敌，奥运已经无望

你们最近很烦恼的事是啥

征集志愿录取规则是怎样的？

der是什么意思？

数学|0.999……真的等于1嘛？

『美国』美确诊人数来到92万！以色列突爆猛料：新冠疫情可能是一场局！

体育知识分子|2大替补老将或成钉子户，女排奥运阵容老化严重？4大球星年过30岁

10种最好的Python开发编辑器，你使用过几种呢？

冲牙器是每天都用吗冲牙器天天用还是一个礼拜用一次

快速用WordPress建站

茶文化千年传承景迈山用茶与世界对话

Java的常用API之System类简介

红没药醇可以长期用吗,红没药醇属于激素类吗

现代简约家居装修黑白格如何运用

鹿血酒的功效与作用

三款好用的睫毛膏推荐飞箭睫毛膏

茶叶的十大妙用效果