没有基础咋利用爬虫获取自己想要的信息要么学习

要么学习，要么出钱请人写。
■网友
用GooSeeker网络爬虫，要下载图片的话，只需勾选“下载图片”，文字和图片就会同时下载，不用编程序，在浏览器上点选你想要的内容就行了
■网友
这里讲一些基础的python爬虫实战知识1.导入模块import re import urllib.request from bs4 import BeautifulSoup 2.添加头文件，防止爬取过程被拒绝链接 def qiuShi(url,page): ################### 模拟成高仿度浏览器的行为 ############## # 设置多个头文件参数，模拟成高仿度浏览器去爬取网页 heads ={ \u0026#39;Connection\u0026#39;:\u0026#39;keep-alive\u0026#39;, \u0026#39;Accept-Language\u0026#39;:\u0026#39;zh-CN,zh;q=0.9\u0026#39;, \u0026#39;Accept\u0026#39;:\u0026#39;text/html,application/xhtml+xml,application/xml;\\ q=0.9,image/webp,image/apng,*/*;q=0.8\u0026#39;, \u0026#39;User-Agent\u0026#39;:\u0026#39;Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 \\ (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36\u0026#39;, } headall = for key,value in heads.items(): items = (key,value) # 将多个头文件参数一个一个添加到headall列表中 headall.append(items) # print(headall) # print(\u0026#39;测试1--\u0026#39;) # 创建opener对象 opener = urllib.request.build_opener() # 添加头文件到opener对象 opener.addheaders = headall # 将opener对象设置成全局模式 urllib.request.install_opener(opener) # 爬取网页并读取数据到data data = https://www.zhihu.com/api/v4/questions/52445682/opener.open(url).read().decode() # data1 = urllib.request.urlopen(url).read().decode(/u0026#39;utf-8/u0026#39;) # print(data1) # print(/u0026#39;测试2--/u0026#39;) ################## end ########################################3.创建soup解析器对象 soup = BeautifulSoup(data,\u0026#39;lxml\u0026#39;) x = 04.开始使用BeautifulSoup4解析器提取用户名信息 ############### 获取用户名 ######################## name = # 使用bs4解析器提取用户名 unames = soup.find_all(\u0026#39;h2\u0026#39;) # print(\u0026#39;测试3--\u0026#39;,unames) for uname in unames: # print(uname.get_text(),\u0026#39;第\u0026#39;,page,\u0026#39;-\u0026#39;,str(x)+\u0026#39;用户名：\u0026#39;,end=\u0026#39;\u0026#39;) # 将用户名一个一个添加到name列表中 name.append(uname.get_text()) # print(name) # print(\u0026#39;测试4--\u0026#39;) #################end#############################5.提取发表的内容信息 ############## 发表的内容 ######################### cont = data4 = soup.find_all(\u0026#39;div\u0026#39;,class_=\u0026#39;content\u0026#39;) # print(data4) # 记住二次筛选一点要转换成字符串形式，否则报错 data4 = str(data4) # 使用bs4解析器提取内容 soup3 = BeautifulSoup(data4,\u0026#39;lxml\u0026#39;) contents = soup3.find_all(\u0026#39;span\u0026#39;) for content in contents: # print(\u0026#39;第\u0026#39;,x,\u0026#39;篇糗事的内容：\u0026#39;,content.get_text()) # 将内容一个一个添加到cont列表中 cont.append(content.get_text()) # print(cont) # print(\u0026#39;测试5--\u0026#39;) ##############end####################################


上一页
1
2
3
下一页
		  	






























推荐阅读

           
                  
              
                  作文：当小学生的作文“翻车”，家长表情收不住，老师：标点引起大误会 
                
                   
                
              
            

                  
              
                  「北京」北京一男子在地铁车厢内吸烟，已被行拘 
                
                   
                
              
            

                  
              
                  皇城根儿胡同串子舌尖上的京城——“炒面倭瓜” 
                
                   
                
              
            

                  
              
                  最新热文|向佐真的别当演员了，凭一己之力拉低整部剧颜值 
                
                   
                
              
            

                  
              
                  顶层燃气主管道降低的问题 
                
                   
                
              
            

                  
              
                  帅国|服务信托成增长“新动力”，高压下的信托业找到突破口了？ 
                
                   
                
              
            

                  
              
                  穿搭|穿靴子的季节到了，美女用马丁靴搭配工装连体裤，展现酷飒之美 
                
                   
                
              
            

                  
              
                  电池更换|总投资超20亿元 临港五年内最多新增5000台换电重卡 
                
                   
                
              
            

                  
              
                  觉得生活无味时有哪些刺激又安全的事情可以做 
                
                   
                
              
            

                  
              
                  莫红论育儿|朱茵发福明显让人认不出，被网友调侃是“大妈”，港普4F同框 
                
                   
                
              
            

                  
              
                  【球长社圈】骚气！丹尼-格林社交媒体晒出自己新发型视频 
                
                   
                
              
            

                  
              
                  学霸|现代孔乙己：那些被北上广淹没的县城学霸 
                
                   
                
              
            

                  
              
                  苹果发布会显示，正实现从纵向整合向横向整合蜕变 
                
                   
                
              
            

                  
              
                  青年|王者荣耀：花木兰峡谷严厉对待苏烈，凯，但私底下是很温柔哟 
                
                   
                
              
            

                  
              
                  |47岁佘诗曼扎公主头现身跟平时披发差距大，我感觉她一下就变老了 
                
                   
                
              
            

                  
              
                  人民日报微信公号|女童穿越马路，轿车疾驶而来，被撞飞的却是他 
                
                   
                
              
            

                  
              
                  好影天天荐|郭麒麟低调回应，郭麒麟“翻车”了？9天前上节目被知名导演炮轰 
                
                   
                
              
            

                  
              
                  「互联网圈内事官方」中兴通讯独立董事被曝涉性侵养女！当事人：我这辈子都不会忘！ 
                
                   
                
              
            

                  
              
                  据说，今年农村这6大补贴很心动哦，不来看下你家能领取几种 
                
                   
                
              
            

                  
              
                  生肖|9月，再续前缘，旧情人心软了，3生肖再次收获挚爱，纠纠缠缠 
                
                   
                
              
            

          

家中千万不要摆这些绿植，对身体不仅没有帮助，还会起反作用 

河北承德危险废物综合利用处置率达100% 

甘肃天水落地脱贫“基础工程”见效累计减贫92.08万人 

黄金时间■黄金时间丨打造海绵城市：节水从利用雨水开始 

耻骨|韧带痛、耻骨也痛，从来没有这么痛过，痛了两个多星期了！”厦门孕妈崩溃：“孕晚期各种不舒服 

|淮阴水政充分利用“双随机”平台 促进执法公平公正 

5.1声道片源对于没有5.1硬件系统的用户来说有意义吗 

司法所|川姜镇司法所盛赛飞利用父母偏心绝情，赶我出家门 

知乎有没有必要增加一个特别关注功能 

孕妇到了预产期，小孩还没有入盆，请问是该等下去还是直接剖腹产