中年|一篇文章带你搞懂网络爬虫过程中伪装浏览器的请求头常见字段
大家在学习网络爬虫的过程中 , 肯定都会用到F12这个快捷键 , 或者在网页上点击右键—>检查 , 进入到网页元素审查模式中去 , 其中请求头是我们重点关注的内容 , 如下图所示:
本文插图
请求头通常在爬虫过程中 , 是为了伪装浏览器 , 这样就可以悄悄的获取网页数据了 。 但是我们经常遇到的请求头中 , 基本上是英文 , 关于英文的意思 , 有时候我们看的并不是很明白 。
今天小编就请求头中的常用字段 , 整理一篇小文章 , 供大家一起学习下 。 希望后面大家在构造请求头的时候 , 不用像以前那么蒙就可以了 。
/2 常见字段(一)/
常见字段(一) , 如下所示:
【中年|一篇文章带你搞懂网络爬虫过程中伪装浏览器的请求头常见字段】Accept: text/htnl, application/xhtml+xml, application/xmlq=0.9,中/*q=08
Accept字段主要用来表示浏览器能够支持的内容类型有哪些 。
text html表示HTMⅡL文档 。
application/ xhtml+xm表示 XHTML文档 。
application/xml表示XMAL文档 。
q代表权重系数,值介于0和1之间 。
所以这一行字段信息表示浏览器可以支持 text/html,application/xml、/等内容类型,支持的优先顺序从左到右依次排列 。
/3 常见字段(二)/
常见字段(二) , 如下所示:
accept-encoding:gzip, deflate
accept-encoding字段主要用来表示浏览器支持的压缩编码有哪些 。
gzip是压缩编码的一种 。
deflate是一种无损数据压缩算法 。
这一行字段信息表示浏览器可以支持gzp、 deflate等压缩编码 。
/4 常见字段(三)/
常见字段(三) , 如下所示:
Accept- Language:zhCN,zhq=0.8,en-USq=0.5,cnq=0.3
Accept-language主要用来表示浏览器所支持的语言类型 。
zh-CN表示简体中文语言 。 zh表示中文,CN表示简体
en-Us表示英语(美国)语言
en表示英语语言
所以之一行字段表示浏览器可以支持zh-CN、zh、en-US、cn等语言 。
/5 常见字段(四)/
常见字段(四) , 如下所示: User- Agent: Mozilla5.0( Windows NT61WOw64rv:47.0) Gecko20100101Firefox/47.0
user-agent字段主要表示用户代理,服务器可以通过该字段识别出客户端的浏览器类客户端的操作系统及版本号型、浏览器版本号主要以伪造该字段进行网页排版引擎等客户端信息 。 所以之前要模拟浏览器登录 , 主要以伪造该字段进行 。
Mozilla5.0表示浏览器名和版本号
Windows NT61WOw64rv:47.0 表示客户端操作系统对应信息
Gecko表示网页排版引擎对应信息 。
Firefox/47.0表示火狐浏览器
所以这一行字段表示信息为对应的用户代理信息是Mozilla5.0( Windows NT61WOw64rv:47.0) Gecko20100101Firefox/47.0
/6 常见字段(五)/
常见字段(五) , 如下所示:
Connection:keep-alive
Connection表示客户端与服务器的连接类型,对应的字段值主要有两种
推荐阅读
- 中年|Carnot研发新型空气压缩机:噪音更低 寿命更长 成本更低
- 中年|中国-东盟区块链应用创新实验室揭牌
- 中年|交易所成黑钱胜地:“冻卡潮”背后的秘密
- 中年|波卡上线 现阶段是否值得投资?
- 云计算|从互联网到AI崛起,上海能弯道超车吗?
- 行业互联网,跨境电商|政策资本迎春风 跨境电商“秀肌肉”
- 中年|首台国产T3.20悬臂式掘进机在中信重工下线
- 中年|探索城市的“未来模样”,腾讯政务接下来这么干
- 中年|明年起禁用不可降解塑料购物袋、吸管!塑料袋发明者本来是为拯救地球
- 科学|东方红一号鲜为人知的故事:将继续在轨运行50年