Python爬虫案例：爬取微信公众号文章 _爬取微信

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。
文章转载于公众号：早起Python
作者：陈熹

文章插图
大家好，今天我们来讲点Selenium自动化，你是否有特别喜欢的公众号？你有想过如何将一个公众号历史文章全部文章爬下来学习吗？现在我们就演示用Selenium实现这个功能。

文章插图

下面就来详细讲解如何一步步操作，文末附完整代码。

文章插图

Selenium介绍Selenium是一个用于web应用程序自动化测试的工具，直接运行在浏览器当中，可以通过代码控制与页面上元素进行交互，并获取对应的信息。Selenium很大的一个优点是：不需要复杂地构造请求，访问参数跟使用浏览器的正常用户一模一样，访问行为也相对更像正常用户，不容易被反爬虫策略命中，所见即所得。而且在抓取的过程中，必要时还可人工干预（比如登录、输入验证码等）。

Selenium常常是面对一个严格反爬网站无从入手时的保留武器。当然也有缺点：操作均需要等待页面加载完毕后才可以继续进行，所以速度要慢，效率不高（某些情况下使用headless和无图模式会提高一点效率）。
需求分析和代码实现需求很明确：获取一个公众号全部推文的标题、日期、链接。微信自身的推文功能只能通过其App查看，对App的抓取比较复杂。有一个很方便的替代途径就是通过搜狗微信检索。不过如果直接使用Requests等库直接请求，会涉及的反爬措施有cookie设置，js加密等等，所以今天就利用Selenium大法！
首先导入所需的库和实例化浏览器对象：

from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.support.wait import WebDriverWait# 导入第2-4行是为了马上会提到的 显式等待import timeimport datetimedriver = webdriver.Chrome()driver.get('https://weixin.sogou.com/')

上述的代码就可以实现打开搜狗微信搜索的操作，接下来需要往搜索框里输入文字，并且点击“搜文章”（不直接点搜公众号是因为已经取消通过公众号直接获取相应文章的功能）

文章插图

wait = WebDriverWait(driver, 10)input = wait.until(EC.presence_of_element_located((By.NAME, 'query')))input.send_keys('早起Python')driver.find_element_by_xpath("//input[@class='swz']").click()

【Python爬虫案例：爬取微信公众号文章】逻辑是设定最长等待时间，在10s内发现了输入框已经加载出来后就输入公众号名称，这里我们以“早起Python”为例，并且根据“搜文章”按钮的xpath获取该位置并点击，这里就用到了显式等待。Selenium请求网页等待响应受到网速牵制，如果元素未加载全而代码执行过快就会意外报错而终止，解决方式是等待。

隐式等待是在尝试发现某个元素的时候，如果没能立刻发现，就等待固定长度的时间driver.implicitly_wait(10)，显示等待明确了等待条件，只有该条件触发，才执行后续代码，如这里我用到的代码，当然也可以用time模块之间设定睡眠时间，睡完了再运行后续代码。

文章插图

另外只能获取前10页100条的结果，查看后续页面需要微信扫码登录：

文章插图

因此从这里开始，代码的执行逻辑为：

第10页遍历完成后自动点击登录，此时需要人工介入，扫码完成登录
代码检测登录是否完成（可以简化为识别“下一页”按钮是否出现），如果登录完成则继续从11页遍历到最后一页（没有“下一页”按钮）

由于涉及两次遍历则可以将解析信息包装成函数：

num = 0def get_news():    global num # 放全局变量是为了给符合条件的文章记序    time.sleep(1)    news_lst = driver.find_elements_by_xpath("//li[contains(@id,'sogou_vr_11002601_box')]")    for news in news_lst:        # 获取公众号来源        source = news.find_elements_by_xpath('div[2]/div/a')[0].text        if '早起' not in source:            continue        num += 1        # 获取文章标题        title = news.find_elements_by_xpath('div[2]/h3/a')[0].text        # 获取文章发表日期        date = news.find_elements_by_xpath('div[2]/div/span')[0].text        # 文章发表的日期如果较近可能会显示“1天前” “12小时前” “30分钟前”        # 这里可以用`datetime`模块根据时间差求出具体时间        # 然后解析为`YYYY-MM-DD`格式        if '前' in date:            today = datetime.datetime.today()            if '天' in date:                delta = datetime.timedelta(days=int(date[0]))            elif '小时' in date:                delta = datetime.timedelta(hours=int(date.replace('小时前', ' ')))            else:                delta = datetime.timedelta(minutes=int(date.replace('分钟前', ' ')))            date = str((today - delta).strftime('%Y-%m-%d'))        date = datetime.datetime.strptime(date, '%Y-%m-%d').strftime('%Y-%m-%d')        # 获取url        url = news.find_elements_by_xpath('div[2]/h3/a')[0].get_attribute('href')        print(num, title, date)        print(url)        print('-' * 10)for i in range(10):    get_news()    if i == 9:        # 如果遍历到第十页则跳出循环不需要点击“下一页”        break    driver.find_element_by_id("sogou_next").click()
上一页
1
2
下一页
		  	






























推荐阅读

           
                  
              
                  怀旧服|怀旧服最强BOSS虫巢之王，比克苏恩可难多了 
                
                   
                
              
            

                  
              
                  晨财经|——从经济数据看辽宁全面小康之路，为人民的殷实生活奠定坚实基础 
                
                   
                
              
            

                  
              
                  油酥糖饼的家常做法 
                
                   
                
              
            

                  
              
                  [可口可乐]直播带货只能低价促销？可口可乐、完美日记这样用红人带货 | 超级观点 
                
                   
                
              
            

                  
              
                  用刀捅任达华的那个人怎么了,捅伤任达华的是什么人- 
                
                   
                
              
            

                  
              
                  「切尔西」切尔西官宣！5000万欧元签下维尔纳 击败利物浦拜仁 
                
                   
                
              
            

                  
              
                  正月初一为什么要吃饺子 什么是农历正月初一吃饺子 
                
                   
                
              
            

                  
              
                  阅读公号推送，线上线下打通——手机阅读改变生活 
                
                   
                
              
            

                  
              
                  这3类村庄要实行“统建”，每个农民都能领到补贴！快看看有你吗 
                
                   
                
              
            

                  
              
                   【智能候车】大动作！日照济南路31处公交候车亭安装完毕 
                
                   
                
              
            

                  
              
                  北京艾尚学机构是跑路了吗 
                
                   
                
              
            

                  
              
                  「名医直播」威海市妇幼保健院刘引串上线“观威海·名医直播”云问诊服务平台 
                
                   
                
              
            

                  
              
                  以暴的成语 成语以暴易什么 
                
                   
                
              
            

                  
              
                  食品保存的方法 食品保存的方法有哪些 
                
                   
                
              
            

                  
              
                  星座好看|红线掉落，往事重提，旧人痴恋，不曾放手，痴情不变，未来15天内 
                
                   
                
              
            

                  
              
                  玩懂手机|索尼 PS5 主机大小都快和电视一样高了 
                
                   
                
              
            

                  
              
                  华为▲继续拉大差距？华为突然宣布，任正非一语中的！ 
                
                   
                
              
            

                  
              
                  在北京SAP AGS工作是一种怎么样的体验 
                
                   
                
              
            

                  
              
                  ?“不认识他，求他救了？”女孩家属道歉求饶 
                
                   
                
              
            

                  
              
                  励志生活事|才能走得更快更远，早安心语：顺流而下 
                
                   
                
              
            

          

一行代码让你的python运行速度提高100倍 

python之装饰器详解 

python如何使用HanLP，LTP，jieba中文分词库 

任意图像转素描：Python分分钟实现 

Python接口自动化测试的实现 

python 如何使用HttpRunner做接口自动化测试 

使用Python预测缺失值 

python语言-数据库查询数组转Dataframe格式 

php爬虫框架盘点 

用Python抓取小说目录和全文