爬虫爬取东航的航班信息,遭遇反爬,咋解决
楼上说的都很有道理。你实用selenium爬一下试试。firefox最好是46版本以下,安装在C盘。贴代码:# -*- coding: utf-8 -*-from selenium import webdriverimport timedef parser(): browser = webdriver.Firefox() browser.get(\u0026#39;http://www.ceair.com/flight2014/pvg-kmg-160730_CNY.html\u0026#39;) time.sleep(5) text = browser.page_source browser.close() return textss=parser()print ss其中get后面的链接自己改
■网友
八成http请求没有伪装好,被人发现了,比方header refer等字段, 直接用selenium + 浏览器 省心又省力
■网友
能否贴出部分主要代码 可以分析一下。
■网友
谢邀我的意见和楼上差不多........大概率是你的代码写岔了打开浏览器,F12,重新来一遍........
■网友
爬五天再换有点长了,其实对方对IP对访问频率限制是可以测出来的。
其他字段能用随机的都不要写死。
【爬虫爬取东航的航班信息,遭遇反爬,咋解决】 就这样。
推荐阅读
- python 爬虫,咋获得输入验证码之后的搜索结果
- 1、相同的网址,为啥浏览器http和https都能登录,而爬虫不行\n2、网页下载内容不全
- 在网站上爬取大量纯文本信息,用啥语言比较好
- 咋爬取豆丁、百度文库这样的网站资源
- python 爬取b站网页的编码问题
- 南航|招飞丨国航、南航、东航2021年在京招飞计划发布!
- Python爬虫抓取图片为何会产生大量磁盘碎片
- 关于python爬取天天基金历史净值数据问题 (具体请看问题说明)
- 爬虫关键词匹配机制
- java可以像python一样做爬虫吗做起来麻烦不
