没有基础咋利用爬虫获取自己想要的信息( 二 )

6.提取搞笑指数 #################搞笑指数########################## happy = # 获取搞笑指数 # 第一次筛选 data2 = soup.find_all(\u0026#39;span\u0026#39;,class_="stats-vote") # 获取搞笑指数 # 第二次筛选 data2 = str(data2) # 将列表转换成字符串形式才可以使用 # print(data2) # print(\u0026#39;测试6--\u0026#39;) soup1 = BeautifulSoup(data2,\u0026#39;lxml\u0026#39;) happynumbers = soup1.find_all(\u0026#39;i\u0026#39;,class_="number") for happynumber in happynumbers: # print(happynumber.get_text()) # 将将搞笑数一个一个添加到happy列表中 happy.append(happynumber.get_text()) # print(happy) # print(\u0026#39;测试7--\u0026#39;) ##################end#############################7.提取评论数 ############## 评论数 ############################ comm = data3 = soup.find_all(\u0026#39;a\u0026#39;,class_=\u0026#39;qiushi_comments\u0026#39;) data3 = str(data3) # print(data3) soup2 = BeautifulSoup(data3,\u0026#39;lxml\u0026#39;) comments = soup2.find_all(\u0026#39;i\u0026#39;,class_="number") for comment in comments: # print(comment.get_text()) # 将评论数一个一个添加到comm列表中 comm.append(comment.get_text()) ############end#####################################8.使用正则表达式提取性别和年龄 ######## 获取性别和年龄 ########################## # 使用正则表达式匹配性别和年龄 pattern1 = \u0026#39;\u0026lt;div class="articleGender (\\w*?)Icon"\u0026gt;(\\d*?)\u0026lt;/div\u0026gt;\u0026#39; sexages = re.compile(pattern1).findall(data) # print(sexages)9.设置用户所有信息输出的格局设置 ################## 批量输出用户的所以个人信息 ################# print() for sexage in sexages: sa = sexage print(\u0026#39;*\u0026#39;*17, \u0026#39;=_= 第\u0026#39;, page, \u0026#39;页-第\u0026#39;, str(x+1) + \u0026#39;个用户 =_= \u0026#39;,\u0026#39;*\u0026#39;*17) # 输出用户名 print(\u0026#39;【用户名】:\u0026#39;,name,end=\u0026#39;\u0026#39;) # 输出性别和年龄 print(\u0026#39;【性别】:\u0026#39;,sa,\u0026#39;\\t【年龄】:\u0026#39;,sa) # 输出内容 print(\u0026#39;【内容】:\u0026#39;,cont) # 输出搞笑数和评论数 print(\u0026#39;【搞笑指数】:\u0026#39;,happy,\u0026#39;\\t【评论数】:\u0026#39;,comm) print(\u0026#39;*\u0026#39;*25,\u0026#39; 三八分割线 \u0026#39;,\u0026#39;*\u0026#39;*25) x += 1 ###################end##########################10.设置循环遍历爬取13页的用户信息 for i in range(1,14): # 糗事百科的网址 url = \u0026#39;https://www.qiushibaike.com/8hr/page/\u0026#39;+str(i)+\u0026#39;/\u0026#39; qiuShi(url,i)运行结果,部分截图:
没有基础咋利用爬虫获取自己想要的信息

以上的运行结果是每时都在更新的,所以读者在运行时,结果不一样是正常的。
今天的项目实战就到这里了,喜欢的朋友可以关注、转发一下喔,也可以私信我领取资料包,大家一起学习。另外推荐一款网页代理爬虫产品——太阳HTTP代理,代理Ip高匿,十分适合爬取信息用。


推荐阅读