四种Python爬虫常用的定位元素方法对比，你偏爱哪一款？( 二 ) _Python爬虫

3. XPathXPath 即为 XML 路径语言，它是一种用来确定 XML 文档中某部分位置的计算机语言，如果使用 Chrome 浏览器建议安装 XPath Helper 插件，会大大提高写 XPath 的效率。
之前的爬虫文章基本都是基于 XPath，大家相对比较熟悉因此代码直接给出：
import requestsfrom lxml import htmlurl = 'http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-1'response = requests.get(url).textdef xpath_for_parse(response): selector = html.fromstring(response) books = selector.xpath("//ul[@class='bang_list clearfix bang_list_mode']/li") for book in books: title = book.xpath('div[@class="name"]/a/@title')[0] print(title)if __name__ == '__main__': xpath_for_parse(response)4. 正则表达式如果对 HTML 语言不熟悉，那么之前的几种解析方法都会比较吃力。这里也提供一种万能解析大法：正则表达式，只需要关注文本本身有什么特殊构造文法，即可用特定规则获取相应内容。依赖的模块是 re
首先重新观察直接返回的内容中，需要的文字前后有什么特殊：
import requestsimport reurl = 'http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-1'response = requests.get(url).textprint(response)

文章插图

文章插图

观察几个数目相信就有答案了：<div class="name"><a href=https://www.isolves.com/it/cxkf/yy/Python/2021-03-04/"http://product.dangdang.com/xxxxxxxx.html" target="_blank" title="xxxxxxx"> 书名就藏在上面的字符串中，蕴含的网址链接中末尾的数字会随着书名而改变。
分析到这里正则表达式就可以写出来了：

import requestsimport reurl = 'http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-1'response = requests.get(url).textdef re_for_parse(response):    reg = '<div class="name"><a href=https://www.isolves.com/it/cxkf/yy/Python/2021-03-04/"http://product.dangdang.com/d+.html" target="_blank" title="(.*?)">'    for title in re.findall(reg, response):        print(title)if __name__ == '__main__':    re_for_parse(response)

可以发现正则写法是最简单的，但是需要对于正则规则非常熟练。所谓正则大法好！
当然，不论哪种方法都有它所适用的场景，在真实操作中我们也需要在分析网页结构来判断如何高效的定位元素，最后附上本文介绍的四种方法的完整代码，大家可以自行操作一下来加深体会

import requestsfrom bs4 import BeautifulSoupfrom lxml import htmlimport reurl = 'http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-1'response = requests.get(url).textdef bs_for_parse(response):    soup = BeautifulSoup(response, "lxml")    li_list = soup.find('ul', class_='bang_list clearfix bang_list_mode').find_all('li')    for li in li_list:        title = li.find('div', class_='name').find('a')['title']        print(title)def css_for_parse(response):    soup = BeautifulSoup(response, "lxml")    li_list = soup.select('ul.bang_list.clearfix.bang_list_mode > li')    for li in li_list:        title = li.select('div.name > a')[0]['title']        print(title)def xpath_for_parse(response):    selector = html.fromstring(response)    books = selector.xpath("//ul[@class='bang_list clearfix bang_list_mode']/li")    for book in books:        title = book.xpath('div[@class="name"]/a/@title')[0]        print(title)def re_for_parse(response):    reg = '<div class="name"><a href=https://www.isolves.com/it/cxkf/yy/Python/2021-03-04/"http://product.dangdang.com/d+.html" target="_blank" title="(.*?)">'    for title in re.findall(reg, response):        print(title)if __name__ == '__main__':    # bs_for_parse(response)    # css_for_parse(response)    # xpath_for_parse(response)    re_for_parse(response)
上一页
1
2
3
下一页
		  	






























推荐阅读

           
                  
              
                  斩获118个5G合同，欧洲巨头趁虚而入，追上华为仅差一步之遥 
                
                   
                
              
            

                  
              
                  国家农机购机补贴政策促采茶机的更新换代 
                
                   
                
              
            

                  
              
                  节约的生活▲不屑的眼神被放大，姑娘要凉凉，《青春有你2》：女学员暗示蔡徐坤管的宽 
                
                   
                
              
            

                  
              
                  A股周一大涨 沪指涨逾5%突破3300点 
                
                   
                
              
            

                  
              
                  「吃购爱食兄」也绝不闲在家里！励志好文，宁可累趴在路上 
                
                   
                
              
            

                  
              
                  『扬眼』天海官宣自救基本成功？，「天海准入闹剧」股权转让无效咋办？万通改成“赞助” 
                
                   
                
              
            

                  
              
                  砍大话 解决了很多人的困扰，你家有废旧不用的磁卡吗？这个用途太聪明了 
                
                   
                
              
            

                  
              
                  |180㎡高级灰住宅，现代人追求的宁静、高端，这里都有！ 
                
                   
                
              
            

                  
              
                  这世道究竟是玻璃心太多，还是缺少关爱 
                
                   
                
              
            

                  
              
                  白鲸瞭望台|延长禁运失败，引来伊朗无情嘲讽，美国遭同盟国“集体背叛” 
                
                   
                
              
            

                  
              
                  如何制作留娘糕？ 留娘糕怎么做 
                
                   
                
              
            

                  
              
                   《西游记》中的唐僧为何总被提议蒸着吃？知道原因后，哭笑不得 
                
                   
                
              
            

                  
              
                  CDN与缓存全面详聊，看完之后，大部分程序员收藏了 
                
                   
                
              
            

                  
              
                  牙膏是酸性还是碱性 
                
                   
                
              
            

                  
              
                  9种丰胸食品 哪种丰胸产品好？12种有效的丰胸食物 
                
                   
                
              
            

                  
              
                  股市|A股市场：如果手中10万资金想快速赚到460万，建议牢记双线之上 
                
                   
                
              
            

                  
              
                  火锅冻丸香弹美味竟含十多种添加剂 
                
                   
                
              
            

                  
              
                  马栏山新闻 央视特别节目《坐着高铁看中国》：5G智慧电台“飘”上高铁 
                
                   
                
              
            

                  
              
                  假饵钓鱼技巧和方法 假饵钓鱼技巧 
                
                   
                
              
            

                  
              
                  这些 CSS 伪类，你可能还不知道，可以用起来了 
                
                   
                
              
            

          

Pyppeteer爬虫神器详解 

破了这几种爬虫加密算法后，我的路更近了「JS逆向3」 

python的5种数据结构，方法很多记不住吗？全在这里了. 

500行代码，教你用python写个微信飞机大战 

六堡茶制造方法,六堡茶的四种实用冲泡方法 

初窥 Python 的 import 机制 

Python网络编程实现自动化，简化Telnet网络配置工作 

2分钟将Python转换为exe 

5分钟看懂Python之Excel文件操作 

白发尖的油炸方法,通天岩茶泡茶的四种工艺