没有基础咋利用爬虫获取自己想要的信息( 二 )
6.提取搞笑指数 #################搞笑指数########################## happy = # 获取搞笑指数 # 第一次筛选 data2 = soup.find_all(\u0026#39;span\u0026#39;,class_="stats-vote") # 获取搞笑指数 # 第二次筛选 data2 = str(data2) # 将列表转换成字符串形式才可以使用 # print(data2) # print(\u0026#39;测试6--\u0026#39;) soup1 = BeautifulSoup(data2,\u0026#39;lxml\u0026#39;) happynumbers = soup1.find_all(\u0026#39;i\u0026#39;,class_="number") for happynumber in happynumbers: # print(happynumber.get_text()) # 将将搞笑数一个一个添加到happy列表中 happy.append(happynumber.get_text()) # print(happy) # print(\u0026#39;测试7--\u0026#39;) ##################end#############################7.提取评论数 ############## 评论数 ############################ comm = data3 = soup.find_all(\u0026#39;a\u0026#39;,class_=\u0026#39;qiushi_comments\u0026#39;) data3 = str(data3) # print(data3) soup2 = BeautifulSoup(data3,\u0026#39;lxml\u0026#39;) comments = soup2.find_all(\u0026#39;i\u0026#39;,class_="number") for comment in comments: # print(comment.get_text()) # 将评论数一个一个添加到comm列表中 comm.append(comment.get_text()) ############end#####################################8.使用正则表达式提取性别和年龄 ######## 获取性别和年龄 ########################## # 使用正则表达式匹配性别和年龄 pattern1 = \u0026#39;\u0026lt;div class="articleGender (\\w*?)Icon"\u0026gt;(\\d*?)\u0026lt;/div\u0026gt;\u0026#39; sexages = re.compile(pattern1).findall(data) # print(sexages)9.设置用户所有信息输出的格局设置 ################## 批量输出用户的所以个人信息 ################# print() for sexage in sexages: sa = sexage print(\u0026#39;*\u0026#39;*17, \u0026#39;=_= 第\u0026#39;, page, \u0026#39;页-第\u0026#39;, str(x+1) + \u0026#39;个用户 =_= \u0026#39;,\u0026#39;*\u0026#39;*17) # 输出用户名 print(\u0026#39;【用户名】:\u0026#39;,name,end=\u0026#39;\u0026#39;) # 输出性别和年龄 print(\u0026#39;【性别】:\u0026#39;,sa,\u0026#39;\\t【年龄】:\u0026#39;,sa) # 输出内容 print(\u0026#39;【内容】:\u0026#39;,cont) # 输出搞笑数和评论数 print(\u0026#39;【搞笑指数】:\u0026#39;,happy,\u0026#39;\\t【评论数】:\u0026#39;,comm) print(\u0026#39;*\u0026#39;*25,\u0026#39; 三八分割线 \u0026#39;,\u0026#39;*\u0026#39;*25) x += 1 ###################end##########################10.设置循环遍历爬取13页的用户信息 for i in range(1,14): # 糗事百科的网址 url = \u0026#39;https://www.qiushibaike.com/8hr/page/\u0026#39;+str(i)+\u0026#39;/\u0026#39; qiuShi(url,i)运行结果,部分截图:
以上的运行结果是每时都在更新的,所以读者在运行时,结果不一样是正常的。
今天的项目实战就到这里了,喜欢的朋友可以关注、转发一下喔,也可以私信我领取资料包,大家一起学习。另外推荐一款网页代理爬虫产品——太阳HTTP代理,代理Ip高匿,十分适合爬取信息用。
推荐阅读
- 家中千万不要摆这些绿植,对身体不仅没有帮助,还会起反作用
- 河北承德危险废物综合利用处置率达100%
- 甘肃天水落地脱贫“基础工程”见效累计减贫92.08万人
- 黄金时间■黄金时间丨打造海绵城市:节水从利用雨水开始
- 耻骨|韧带痛、耻骨也痛,从来没有这么痛过,痛了两个多星期了!”厦门孕妈崩溃:“孕晚期各种不舒服
- |淮阴水政充分利用“双随机”平台 促进执法公平公正
- 5.1声道片源对于没有5.1硬件系统的用户来说有意义吗
- 司法所|川姜镇司法所盛赛飞利用父母偏心绝情,赶我出家门
- 知乎有没有必要增加一个特别关注功能
- 孕妇到了预产期,小孩还没有入盆,请问是该等下去还是直接剖腹产
