|如何使用Python和Selenium抓取网站简单的信息

2026-02-27

文章图片

文章图片

文章图片

文章图片

文章图片

文章图片

文章图片

几乎从万维网诞生之日起，就已经使用Web抓取从网站中提取数据。早期，抓取主要是在静态页面上进行的，带有已知元素，标签和数据的页面。
但是，最近， Web开发中的先进技术使这项任务变得更加困难。在本文中，我们将探讨在新技术和其他因素阻止标准抓取的情况下，如何抓取数据。
传统数据抓取
由于大多数网站会生成供人类阅读而不是自动阅读的页面，因此，网络抓取主要包括以编程方式消化网页的标记数据（例如右键单击，查看源代码），然后检测该数据中的静态模式来允许程序“读取”各种信息并将其保存到文件或数据库中。

如果通常要找到报告数据，则可以通过将表单变量或参数传递给URL来访问数据。例如：

Python已成为最流行的Web抓取语言之一，主要原因是：Python创建了各种Web库，可以直接进行调用，用来从HTML和XML文件中提取数据，省去了自己编写的过程。
基于浏览器的抓取
传统方法已经无法将进行有效的数据抓取，主要面临以下几个困难：

证书。需要安装证书才能访问网站上数据所在的部分。访问初始页面时，出现提示，要求我选择计算机上安装的正确证书，然后单击“确定” 。
iframe 。该网站使用的是iframe ，这使我的常规抓取工作陷入困难。有一个方法可以克服这种困难，可以尝试查找所有iframe网址，然后构建一个站点地图，但这工作量会变得很大。
JavaScript 。在填写带有参数（例如，客户ID ，日期范围等）的表格后访问数据。通常，会绕过表单，而只是将表单变量（通过URL或作为隐藏的表单变量）传递到结果页面并查看结果。但是在这种情况下，表单包含JavaScript ，这不允许我以常规方式访问表单变量。

做好

Requests(for making HTTP requests)
URLLib3(URL handling)
Beautiful Soup(in case Selenium couldn’t handle everything)
Selenium(for browser-based navigation)

【|如何使用Python和Selenium抓取网站简单的信息】

推荐阅读

上一篇：大暑来临，制作冰凉的“糯米凉糕”可以给家人避暑解馋

下一篇：山药的营养价值很高。跟这些食物一起搭配的话营养会更高的！