Python模拟登录实战，采集整站表格数据( 二 ) _Python模拟登录

文章插图

和

文章插图

这三处。
第一处那里的下一行的csrf_token很明显就是post请求所带的data里的_csrf，另外两个是js里的函数，虽然js没好好学但也能看出来这俩是通过post请求获得州名和县名的，Binggo！一下子解决两个问题。
为了验证我的猜想，我打算先直接用requests获取点击View Summary前的页面的HTML和cookies，将从HTML中提取的csrf_token值作为点击View Summary时post请求的data里的_csrf值，同时附上cookies，这样两处_csrf就应该是匹配的了：

from lxml import etreeresponse1 = requests.get(url, headers=headers)cookies = response1.cookieshtml = etree.HTML(response1.text)csrf_token = html.xpath('/html/head/meta[3]/@content')[0]data.update({'_csrf': csrf_token})response2 = requests.post(url, data=https://www.isolves.com/it/cxkf/yy/Python/2020-08-19/data, headers=headers, cookies=cookies)print(response2.status_code)

输出200，虽然和Chrome显示的302不一样，但是也表示成功，那就不管了。把response2.text写入html文件打开看是这样：

文章插图

Yeah，数据都在！说明我的猜想是对的！那一会再试试我从没用过的requests.Session()维持会话，自动处理cookies 。
尝试pandas库提取网页表格现在既然已经拿到了目标页面的HTML，那在获取所有年、地区、州名、县名之前，先测试一下pandas.read_html提取网页表格的功能。
pandas.read_html这个函数时在写代码时IDE自动补全下拉列表里瞄到的，一直想试试来着，今天乘机拉出来溜溜：
import pandas as pddf = pd.read_html(response2.text)[0]print(df)输出：

文章插图

Yeah！拿到了，确实比自己手写提取方便，而且数值字符串自动转成数值，优秀！
准备所有参数接下来要获取所有年、地区、州名、县名。年份和地区是写死在HTML里的，直接xpath获取：

文章插图

州名、县名根据之前发现的两个js函数，要用post请求来获得，其中州名要根据地区名获取，县名要根据州名获取，套两层循环就行

def new():    session = requests.Session()    response = session.get(url=url, headers=headers)    html = etree.HTML(response.text)    return session, html session, html = new()years = html.xpath('//*[@id="crmsearchform-year"]/option/text()')regions = html.xpath('//*[@id="crmsearchform-region"]/option/text()')_csrf = html.xpath('/html/head/meta[3]/@content')[0]region_state = {}state_county = {}for region in regions:    data = https://www.isolves.com/it/cxkf/yy/Python/2020-08-19/{'region': region, '_csrf': _csrf}    response = session.post(url_state, data=data)    html = etree.HTML(response.json())    region_state[region] = {x: y for x, y in                            zip(html.xpath('//option/@value'),                                html.xpath('//option/text()'))}    for state in region_state[region]:        data = {'state': state, '_csrf': _csrf}        response = session.post(url_county, data=data)        html = etree.HTML(response.json())        state_county[state] = html.xpath('//option/@value')

啧啧，使用requests.Session就完全不需要自己管理cookies了，方便！具体获得的州名县名就不放出来了，实在太多了。然后把所有年、地区、州名、县名的可能组合先整理成csv文件，一会直接从csv里读取并构造post请求的data字典：

remain = [[str(year), str(region), str(state), str(county)]         for year in years for region in regions         for state in region_state[region] for county in state_county[state]]remain = pd.DataFrame(remain, columns=['CRMSearchForm[year]',                                       'CRMSearchForm[region]',                                       'CRMSearchForm[state]',                                       'CRMSearchForm[county]'])remain.to_csv('remain.csv', index=False)# 由于州名有缩写和全称，也本地保存一份import jsonwith open('region_state.json', 'w') as json_file:        json.dump(region_state, json_file, indent=4)
上一页
1
2
3
下一页
		  	





























推荐阅读

           
                  
              
                  基金|建发股份：拟出资3037.5万元认购安科基金 
                
                   
                
              
            

                  
              
                  樱桃奶球|盘点五部鬼片可以当作搞笑片看的电影 
                
                   
                
              
            

                  
              
                  c罗|第79分钟，球王C罗射丢第10脚攻门，亲手送别大奖，留下无奈苦笑 
                
                   
                
              
            

                  
              
                  封面新闻|30秒｜韩星金贤重抢救昏迷者，事后回应“只是做了该做的事” 
                
                   
                
              
            

                  
              
                  对于六安瓜片，中国工程院院士有话说 
                
                   
                
              
            

                  
              
                  「中国特色社会主义」北京市发布全国文化中心建设未来15年规划 
                
                   
                
              
            

                  
              
                  怎样把皮肤变细腻白嫩 
                
                   
                
              
            

                  
              
                  挖贝网|营业成本同比减少，华电国际2020年上半年净利23.86亿增长43.49% 
                
                   
                
              
            

                  
              
                  法律博士试点!对美国法学博士的了解 
                
                   
                
              
            

                  
              
                  借款连累朋友，很难过 
                
                   
                
              
            

                  
              
                  春季谨防感冒发生 糖尿病患者巧用“香菜”可治病 
                
                   
                
              
            

                  
              
                  乐而雅零触感卫生巾安全吗 
                
                   
                
              
            

                  
              
                  怎样才能快速祛斑美白？ 快速美白祛斑 
                
                   
                
              
            

                  
              
                  酷玩四方|我的世界：最安全的火柴盒在高处？4个极具创意的MC建筑灵感 
                
                   
                
              
            

                  
              
                  音乐响起|一开就是大半年，沾土就活，新手也能养的好！，聪明人都养3种花 
                
                   
                
              
            

                  
              
                  安徽未来将有大发展的城市，不是芜湖和马鞍山，是你家乡吗 
                
                   
                
              
            

                  
              
                  国家经济|印度前国安顾问：中国远未被孤立 
                
                   
                
              
            

                  
              
                  怪咖搞笑|幽默笑话：几天前 因工作失误被老板训了半小时 
                
                   
                
              
            

                  
              
                  居民|儿童青少年超重肥胖问题凸显 
                
                   
                
              
            

                  
              
                  浙报融媒体|8个镇迎来发展契机，“萧山南花园”即将被串联 
                
                   
                
              
            

          

为Python图形界面添加自定义函数功能 

从数据库到可视化性能，5个大数据分析工具测评，python只排倒数 

六个高Star开源项目，让你更懂OAuth和单点登录 

Python数据分析实战，小费数据集应用 

Python实现数据压缩如此简单 

python开发app实战 

Python版本管理工具和虚拟环境 

使用这个 Python 工具分析你的 Web 服务器日志文件 

一款基于 Python 语言的 Linux 资源监视器 

教你用10行Python 代码实现自动化群控