没有基础咋利用爬虫获取自己想要的信息

要么学习,要么出钱请人写。
■网友
用GooSeeker网络爬虫,要下载图片的话,只需勾选“下载图片”,文字和图片就会同时下载,不用编程序,在浏览器上点选你想要的内容就行了
■网友
这里讲一些基础的python爬虫实战知识1.导入模块import re import urllib.request from bs4 import BeautifulSoup 2.添加头文件,防止爬取过程被拒绝链接 def qiuShi(url,page): ################### 模拟成高仿度浏览器的行为 ############## # 设置多个头文件参数,模拟成高仿度浏览器去爬取网页 heads ={ \u0026#39;Connection\u0026#39;:\u0026#39;keep-alive\u0026#39;, \u0026#39;Accept-Language\u0026#39;:\u0026#39;zh-CN,zh;q=0.9\u0026#39;, \u0026#39;Accept\u0026#39;:\u0026#39;text/html,application/xhtml+xml,application/xml;\\ q=0.9,image/webp,image/apng,*/*;q=0.8\u0026#39;, \u0026#39;User-Agent\u0026#39;:\u0026#39;Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 \\ (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36\u0026#39;, } headall = for key,value in heads.items(): items = (key,value) # 将多个头文件参数一个一个添加到headall列表中 headall.append(items) # print(headall) # print(\u0026#39;测试1--\u0026#39;) # 创建opener对象 opener = urllib.request.build_opener() # 添加头文件到opener对象 opener.addheaders = headall # 将opener对象设置成全局模式 urllib.request.install_opener(opener) # 爬取网页并读取数据到data data = https://www.zhihu.com/api/v4/questions/52445682/opener.open(url).read().decode() # data1 = urllib.request.urlopen(url).read().decode(/u0026#39;utf-8/u0026#39;) # print(data1) # print(/u0026#39;测试2--/u0026#39;) ################## end ########################################3.创建soup解析器对象 soup = BeautifulSoup(data,\u0026#39;lxml\u0026#39;) x = 04.开始使用BeautifulSoup4解析器提取用户名信息 ############### 获取用户名 ######################## name = # 使用bs4解析器提取用户名 unames = soup.find_all(\u0026#39;h2\u0026#39;) # print(\u0026#39;测试3--\u0026#39;,unames) for uname in unames: # print(uname.get_text(),\u0026#39;第\u0026#39;,page,\u0026#39;-\u0026#39;,str(x)+\u0026#39;用户名:\u0026#39;,end=\u0026#39;\u0026#39;) # 将用户名一个一个添加到name列表中 name.append(uname.get_text()) # print(name) # print(\u0026#39;测试4--\u0026#39;) #################end#############################5.提取发表的内容信息 ############## 发表的内容 ######################### cont = data4 = soup.find_all(\u0026#39;div\u0026#39;,class_=\u0026#39;content\u0026#39;) # print(data4) # 记住二次筛选一点要转换成字符串形式,否则报错 data4 = str(data4) # 使用bs4解析器提取内容 soup3 = BeautifulSoup(data4,\u0026#39;lxml\u0026#39;) contents = soup3.find_all(\u0026#39;span\u0026#39;) for content in contents: # print(\u0026#39;第\u0026#39;,x,\u0026#39;篇糗事的内容:\u0026#39;,content.get_text()) # 将内容一个一个添加到cont列表中 cont.append(content.get_text()) # print(cont) # print(\u0026#39;测试5--\u0026#39;) ##############end####################################


推荐阅读