没有基础咋利用爬虫获取自己想要的信息
要么学习,要么出钱请人写。
■网友
用GooSeeker网络爬虫,要下载图片的话,只需勾选“下载图片”,文字和图片就会同时下载,不用编程序,在浏览器上点选你想要的内容就行了
■网友
这里讲一些基础的python爬虫实战知识1.导入模块import re import urllib.request from bs4 import BeautifulSoup 2.添加头文件,防止爬取过程被拒绝链接 def qiuShi(url,page): ################### 模拟成高仿度浏览器的行为 ############## # 设置多个头文件参数,模拟成高仿度浏览器去爬取网页 heads ={ \u0026#39;Connection\u0026#39;:\u0026#39;keep-alive\u0026#39;, \u0026#39;Accept-Language\u0026#39;:\u0026#39;zh-CN,zh;q=0.9\u0026#39;, \u0026#39;Accept\u0026#39;:\u0026#39;text/html,application/xhtml+xml,application/xml;\\ q=0.9,image/webp,image/apng,*/*;q=0.8\u0026#39;, \u0026#39;User-Agent\u0026#39;:\u0026#39;Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 \\ (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36\u0026#39;, } headall = for key,value in heads.items(): items = (key,value) # 将多个头文件参数一个一个添加到headall列表中 headall.append(items) # print(headall) # print(\u0026#39;测试1--\u0026#39;) # 创建opener对象 opener = urllib.request.build_opener() # 添加头文件到opener对象 opener.addheaders = headall # 将opener对象设置成全局模式 urllib.request.install_opener(opener) # 爬取网页并读取数据到data data = https://www.zhihu.com/api/v4/questions/52445682/opener.open(url).read().decode() # data1 = urllib.request.urlopen(url).read().decode(/u0026#39;utf-8/u0026#39;) # print(data1) # print(/u0026#39;测试2--/u0026#39;) ################## end ########################################3.创建soup解析器对象 soup = BeautifulSoup(data,\u0026#39;lxml\u0026#39;) x = 04.开始使用BeautifulSoup4解析器提取用户名信息 ############### 获取用户名 ######################## name = # 使用bs4解析器提取用户名 unames = soup.find_all(\u0026#39;h2\u0026#39;) # print(\u0026#39;测试3--\u0026#39;,unames) for uname in unames: # print(uname.get_text(),\u0026#39;第\u0026#39;,page,\u0026#39;-\u0026#39;,str(x)+\u0026#39;用户名:\u0026#39;,end=\u0026#39;\u0026#39;) # 将用户名一个一个添加到name列表中 name.append(uname.get_text()) # print(name) # print(\u0026#39;测试4--\u0026#39;) #################end#############################5.提取发表的内容信息 ############## 发表的内容 ######################### cont = data4 = soup.find_all(\u0026#39;div\u0026#39;,class_=\u0026#39;content\u0026#39;) # print(data4) # 记住二次筛选一点要转换成字符串形式,否则报错 data4 = str(data4) # 使用bs4解析器提取内容 soup3 = BeautifulSoup(data4,\u0026#39;lxml\u0026#39;) contents = soup3.find_all(\u0026#39;span\u0026#39;) for content in contents: # print(\u0026#39;第\u0026#39;,x,\u0026#39;篇糗事的内容:\u0026#39;,content.get_text()) # 将内容一个一个添加到cont列表中 cont.append(content.get_text()) # print(cont) # print(\u0026#39;测试5--\u0026#39;) ##############end####################################
推荐阅读
- 家中千万不要摆这些绿植,对身体不仅没有帮助,还会起反作用
- 河北承德危险废物综合利用处置率达100%
- 甘肃天水落地脱贫“基础工程”见效累计减贫92.08万人
- 黄金时间■黄金时间丨打造海绵城市:节水从利用雨水开始
- 耻骨|韧带痛、耻骨也痛,从来没有这么痛过,痛了两个多星期了!”厦门孕妈崩溃:“孕晚期各种不舒服
- |淮阴水政充分利用“双随机”平台 促进执法公平公正
- 5.1声道片源对于没有5.1硬件系统的用户来说有意义吗
- 司法所|川姜镇司法所盛赛飞利用父母偏心绝情,赶我出家门
- 知乎有没有必要增加一个特别关注功能
- 孕妇到了预产期,小孩还没有入盆,请问是该等下去还是直接剖腹产
